You are on page 1of 394

IMPRESO EN MXICO - PRINTED IN MEXICO

A mis nias

CONTENIDO

INTRODUCCIN ............................................................................................................................. CAPTULO 1. MUESTREO ESTADSTICO: CONCEPTOS, ESTIMADORES Y SU DISTRIBUCIN ......................................................................................... Conceptos iniciales en la teora del muestreo ........................................................ Muestreo y estimadores. Distribuciones en el muestreo ........................................ Propiedades y precisin de los estimadores. Comparacin de estimadores........... Estimacin por intervalos de confianza.................................................................. Problemas resueltos................................................................................................ Ejercicios propuestos.............................................................................................. CAPTULO 2. MTODOS GENERALES DE SELECCIN DE MUESTRAS. ESTIMACIN Y ERRORES.............................................................................. Seleccin con y sin reposicin. Probabilidades iguales y desiguales..................... Estimacin puntual y formacin general de estimadores ....................................... Muestreo con reposicin y probabilidades desiguales. Estimador de Hansen Hurwitz ... Muestreo con reposicin y probabilidades proporcionales a los tamaos. Mtodos especiales de seleccin ........................................................................ Muestreo sin reposicin y probabilidades desiguales. Estimador de Horvitz Thompson . Muestreo sin reposicin y probabilidades proporcionales a los tamaos. Mtodos especiales de seleccin ........................................................................ Mtodo de Montecarlo ........................................................................................... Problemas resueltos................................................................................................ Ejercicios propuestos.............................................................................................. CAPTULO 3. MUESTREO ALEATORIO SIMPLE SIN Y CON REPOSICIN. SUBPOBLACIONES ........................................................................................... Muestreo aleatorio simple sin reposicin. Especificaciones .................................. Estimadores, varianzas y estimacin de varianzas................................................. Tamao de la muestra ............................................................................................

xi

1 3 4 6 8 10 47

49 51 51 54 55 56 57 62 64 108

109 111 112 114

viii

Muestreo estadstico. Conceptos y problemas resueltos

Muestreo aleatorio simple con reposicin. Estimadores ........................................ Varianzas y su estimacin con reposicin.............................................................. Tamao de la muestra con reposicin .................................................................... Comparacin entre muestreo aleatorio sin y con reposicin.................................. Subpoblaciones....................................................................................................... Problemas resueltos................................................................................................ Ejercicios propuestos.............................................................................................. CAPTULO 4. MUESTREO ESTRATIFICADO SIN Y CON REPOSICIN ....................... Concepto de muestreo estratificado ....................................................................... Muestreo estratificado sin reposicin. Estimadores y errores ................................ Muestreo estratificado con reposicin. Estimadores y errores............................... Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para muestreo sin reposicin .............................................................................. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para muestreo con reposicin ............................................................................. Tamao de la muestra para muestreo sin reposicin.............................................. Tamao de la muestra para muestreo con reposicin............................................. Comparacin de eficiencias en muestreo estratificado .......................................... Postestratificacin .................................................................................................. Problemas resueltos................................................................................................ Ejercicios propuestos.............................................................................................. CAPTULO 5. MUESTREO SISTEMTICO ............................................................................ Muestreo sistemtico. Especificaciones ................................................................. Estimadores y varianzas ......................................................................................... Relacin entre el muestreo sistemtico y el muestreo aleatorio simple ................. Relacin entre el muestreo sistemtico y el muestreo estratificado ....................... Estimacin de varianzas ......................................................................................... Relacin entre el muestreo sistemtico y el muestreo por conglomerados ............ Problemas resueltos................................................................................................ Ejercicios propuestos.............................................................................................. CAPTULO 6. MUESTREO POR MTODOS INDIRECTOS. RAZN, REGRESIN Y DIFERENCIA ................................................................................................... Estimadores no lineales .......................................................................................... Muestreo por mtodos indirectos. El estimador de razn ...................................... Estimaciones de los parmetros poblacionales basadas en la razn y errores ....... Estimaciones por regresin y errores ..................................................................... Estimaciones por diferencia y errores .................................................................... Estimadores de razn en el muestreo estratificado ................................................ Estimadores de regresin en el muestreo estratificado .......................................... Problemas resueltos................................................................................................ Ejercicios propuestos..............................................................................................

118 119 120 121 122 124 145 147 149 150 151 152 155 156 156 157 159 161 195 197 199 200 203 203 205 206 207 224

225 227 229 233 234 237 238 245 250 271

Contenido

ix

CAPTULO 7.

MUESTREO UNIETPICO DE CONGLOMERADOS ................................. Muestreo unietpico de conglomerados. Estimadores para conglomerados del mismo tamao y probabilidades iguales....................................................... Varianza de los estimadores. Coeficiente de correlacin intraconglomerados. Estimacin de varianzas .................................................................................... Muestreo de conglomerados del mismo tamao con reposicin. Varianzas de los estimadores y estimacin de las varianzas............................. Muestreo unietpico de conglomerados de distinto tamao .................................. Muestreo unietpico de conglomerados de distinto tamao con probabilidades desiguales................................................................................... Tamao de la muestra ............................................................................................ Problemas resueltos................................................................................................ Ejercicios propuestos..............................................................................................

273

275 276 280 281 283 285 286 297 299

CAPTULO 8.

MUESTREO BIETPCO DE CONGLOMERADOS ...................................... Muestreo bietpico de conglomerados. Estimadores para probabilidades iguales y conglomerados del mismo tamao .................................................................. Varianzas y su estimacin en muestreo bietpico con probabilidades iguales y conglomerados del mismo tamao .................................................................. Muestreo bietpico de conglomerados de distinto tamao y probabilidades iguales...... Tamao de la muestra en muestreo bietpico ........................................................ Muestreo bietpico con probabilidades desiguales y con reposicin en 1 etapa. Estimadores, varianzas y su estimacin.......................................... Muestreo bietpico con probabilidades desiguales y sin reposicin en 1 etapa. Estimadores, varianzas y su estimacin.......................................... Muestreo polietpico .............................................................................................. Diseos complejos. Muestreo bietpico con estratificacin en primera etapa....... Problemas resueltos................................................................................................ Ejercicios propuestos..............................................................................................

301 301 304 307 308 310 312 313 314 327

CAPTULO 9.

MUESTREO BIFSICO Y MUESTREO EN OCASIONES SUCESIVAS ......................................................................................................... Muestreo bifsico ................................................................................................... Muestreo bifsico para estratificacin. Estimadores, varianzas y estimacin de varianzas ....................................................................................................... Muestreo bifsico para estimadores de razn......................................................... Muestreo bifsico para estimadores de regresin................................................... Muestreo bifsico para estimadores de diferencia ................................................. Mestreo en ocasiones sucesivas ............................................................................. Estimadores de mnima varianza en el muestreo en ocasiones sucesivas ............. Problemas resueltos................................................................................................ Ejercicios propuestos..............................................................................................

329 331 332 336 337 338 338 341 344 350

Muestreo estadstico. Conceptos y problemas resueltos

CAPTULO 10. MUESTREO ESTADSTICO MEDIANTE SPSS ............................................ SPSS y el muestreo estadstico............................................................................... Diseos complejos y el asistente de muestreo. Creacin de un nuevo plan de muestreo...................................................................................................... ... Asistente de muestreo: Modificar un plan existente .............................................. Asistente de muestreo: Ejecutar un plan de muestreo dado ................................... Preparacin de una muestra compleja para su anlisis: Creacin de un nuevo plan de anlisis ................................................................................................... Preparacin de una muestra compleja para su anlisis: Modificar un plan de anlisis existente............................................................................................ Clculos en muestras complejas: frecuencias, descriptivos, tablas de contingencia y razones.............................................................................................................

351 353 354 362 364 364 368 368

INTRODUCCIN

La finalidad esencial de este libro es presentar las tcnicas de muestreo estadstico en su faceta prctica. Cada captulo comienza con una breve exposicin de los conceptos tericos a utilizar en los problemas con el objetivo de que no sea necesario recurrir a textos externos para comprender las herramientas utilizadas en la solucin de los ejercicios. Adems, determinados ejercicios se refuerzan con aplicaciones informticas para obtener la solucin. En particular se utilizan Excel y SPSS. Los ms de 150 problemas que contiene el texto, as como los conceptos tericos, se dirigen tanto a docentes como a estudiantes universitarios de todos los niveles que imparten o cursan la materia de muestreo estadstico. El libro es tambin de utilidad para los profesionales de la economa, biologa, botnica, zoologa, marketing, auditora, agronoma, comercio, transporte, medicina, control de calidad, etc. En general puede utilizarse en todos los sectores en los que se aplican las tcnicas de muestreo. En cuanto al contenido, se comienza exponiendo los conceptos iniciales de la teora del muestreo, para facilitar la situacin del lector en el contexto de la teora de muestras moderna. A continuacin se presentan los mtodos bsicos para seleccionar la muestra y se desarrollan los diferentes tipos de muestreo, como muestreo aleatorio simple, muestreo estratificado, muestreo sistemtico, mtodos indirectos de estimacin por razn, regresin y diferencia, muestreo por conglomerados unietpico, bietpico y polietpico, los procedimientos para el muestreo bifsico y los problemas peculiares de las encuestas repetidas. Los problemas suelen adecuarse en lo posible a situaciones prcticas y la metodologa pretende mantener la secuencia conceptos A aplicaciones, muy til en los mtodos de enseanza modernos. Comenzar presentando los temas de forma terica, para a continuacin resolver ejercicios prcticos que ilustran los mtodos tericos, cuya resolucin suele apoyarse en la medida de lo posible en las herramientas informticas ms adecuadas, es la secuencia ms lgica a seguir en la didctica de esta materia.

CAPTULO MUESTREO ESTADSTICO: CONCEPTOS, ESTIMADORES Y SU DISTRIBUCIN

OBJETIVOS
1. Presentar el concepto de muestreo estadstico en poblaciones finitas. 2. Distinguir claramente los conceptos de poblacin, marco y muestra. 3. Introducir el concepto de estimador y su distribucin en el muestreo. 4. Analizar las propiedades de los estimadores. 5. Estudiar la precisin de los estimadores. 6. Comparar estimadores. 7. Cuantificar la precisin de los estimadores. 8. Comprender el concepto de estimacin mediante intervalos de confianza. 9. Analizar la influencia del sesgo en la estimacin por intervalos de confianza. 10. Analizar la influencia de la normalidad en la estimacin por intervalos de confianza. 11. Realizar la estimacin mediante intervalos de confianza.

Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Conceptos iniciales en la teora del muestreo. 2. Muestreo y estimadores. Distribuciones en el muestreo. 3. Propiedades y precisin de los estimadores. Comparacin de estimadores. 4. Estimacin por intervalos de confianza. 5. Problemas resueltos. 6. Ejercicios propuestos.

Muestreo estadstico: conceptos, estimadores y su distribucin

CONCEPTOS INICIALES EN LA TEORA DEL MUESTREO


Al hablar de mtodos de muestreo nos referimos al conjunto de tcnicas estadsticas que estudian la forma de seleccionar una muestra lo suficientemente representativa de una poblacin cuya informacin permita inferir las propiedades o caractersticas de toda la poblacin cometiendo un error medible y acotable. A partir de la muestra, seleccionada mediante un determinado mtodo de muestreo, se estiman las caractersticas poblacionales (media, total, proporcin, etc.) con un error cuantificable y controlable. Las estimaciones se realizan a travs de funciones matemticas de la muestra denominadas estimadores, que se convierten en variables aleatorias al considerar la variabilidad de las muestras. Los errores se cuantifican mediante varianzas, desviaciones tpicas o errores cuadrticos medios de los estimadores, que miden la precisin de stos. La metodologa que permite inferir resultados, predicciones y generalizaciones sobre la poblacin estadstica, basndose en la informacin contenida en las muestras representativas previamente elegidas por mtodos de muestreo formales, se denomina inferencia estadstica. Es muy importante tener en cuenta que para medir el grado de representatividad de la muestra es necesario utilizar muestreo probabilstico. Diremos que el muestreo es probabilstico cuando pueda establecerse la probabilidad de obtener cada una de las muestras que sea posible seleccionar, esto es, cuando la seleccin de muestras constituya un fenmeno aleatorio probabilizable. Dicha seleccin se verificar en condiciones de azar, siendo susceptible de medida la incertidumbre derivada de la misma. Esto permitir medir los errores cometidos en el proceso de muestreo (a travs de varianza u otras medidas estadsticas). Existen varios tipos de muestreo, dependiendo de que la poblacin estadstica sea finita o infinita, materia sobre la que existe amplia literatura estadstica, pero nosotros consideraremos solamente el muestreo en poblaciones finitas. La poblacin finita inicial que se desea investigar se denomina poblacin objetivo, pero el muestreo de toda la poblacin objetivo no siempre es posible debido a diferentes problemas que no permiten obtener informacin de algunos de sus elementos (inaccesibilidad de algunos de sus elementos, negativas a colaborar, ausencias, etc.), con lo que la poblacin que realmente es objeto de estudio o poblacin investigada no coincide con la poblacin objetivo. Por otro lado, para seleccionar la muestra, necesitaremos un listado de unidades de muestreo denominado marco que tericamente debiera coincidir con la poblacin objetivo. Un marco ser ms adecuado cuanto mejor cubra la poblacin objetivo, es decir, cuanto menor sea el error de cobertura. Pero en los marcos son inevitables las desactualizaciones, las omisiones de algunas unidades, las duplicaciones de otras y la presencia de unidades extraas y otras impurezas que obligan a su depuracin (depuracin de marcos imperfectos). Idealmente podra conseguirse la poblacin objetivo eliminando del marco las unidades errneamente incluidas en l (unidades extraas, duplicaciones, etc.) y aadiendo las omisiones. Asimismo, tambin sera una meta que al eliminar del marco las unidades de las que no se puede obtener informacin (inaccesibles, ausentes, no colaboradoras, etc.) se obtuviera la poblacin investigada. El marco puede estar constituido por unidades elementales de muestreo o por unidades compuestas. Una unidad elemental (o simple) es la unidad de muestreo ms sencilla posible y una unidad compuesta (o primaria) est formada por varias unidades elementales. Como en la prctica no es fcil disponer de marcos de unidades elementales, se intenta conseguir marcos de unidades compuestas que son ms accesibles. Por ejemplo, para estudiar habitantes de una regin es ms fcil disponer de un listado de hogares que de un listado de individuos. Se selecciona la muestra de un marco de hogares (unidades compuestas de varios individuos) y despus se estudian las propiedades de los individuos con tcnicas adecuadas.

Muestreo estadstico. Conceptos y problemas resueltos

MUESTREO Y ESTIMADORES. DISTRIBUCIONES EN EL MUESTREO


Consideramos los sucesos elementales asociados a un fenmeno o experimento aleatorio dado S1, S2, ..., Sm, entendiendo por sucesos elementales los ms simples posibles, es decir, aquellos que no pueden ser descompuestos en otros sucesos. El conjunto {S1, S2, ..., Sm} se denomina espacio muestral asociado al fenmeno o experimento. Si consideramos como fenmeno o experimento la extraccin aleatoria de muestras dentro de una poblacin por un procedimiento o mtodo de muestreo dado, podemos considerar como sucesos elementales las muestras obtenidas, constituyendo el conjunto de las mismas el espacio muestral. Habitualmente en los mtodos de muestreo comunes se consideren iguales muestras con los mismos elementos, aunque estn colocados en orden diferente (el orden de colocacin no interviene). Una muestra de tamao n extrada de una poblacin U = {U1, U2, ..., UN} de tamao N mediante un mtodo de muestreo dado, suele denotarse como s = {u1, u2, ..., un}. De esta forma, El conjunto de las Nn muestras posibles de tamao n que se pueden formar con los N elementos de la poblacin U es el espacio muestral S. Evidentemente, para establecer la probabilidad de todas las muestras posibles derivadas de un procedimiento de muestreo dado, ser necesario conocer ese conjunto de muestras; es decir, ser necesario delimitar tanto el mtodo de muestreo como el espacio muestral derivado del mismo. Un procedimiento, o mtodo, de muestreo es sencillamente un proceso o mecanismo mediante el que se seleccionan las muestras de modo que cada una tenga una determinada probabilidad de ser elegida. Por tanto, el mtodo aleatorio empleado para seleccionar la muestra define en el espacio muestral S una funcin de probabilidad P tal que: P(Si) * 0 i

P(S ) = 1
S i

A partir de una muestra, seleccionada mediante un determinado mtodo de muestreo, se estiman las caractersticas poblacionales (media, total, proporcin, etc.), con un error cuantificable y controlable. Las estimaciones se realizan a travs de funciones matemticas de la muestra denominadas estimadores, que se convierten en variables aleatorias al considerar la variabilidad de seleccin de las muestras. Los errores se cuantifican mediante varianzas, desviaciones tpicas o errores cuadrticos medios de los estimadores, que miden la precisin de los mismos. Para formalizar el problema de la estimacin en poblaciones finitas, se considera que tenemos definida una caracterstica X en la poblacin U que toma el valor numrico Xi sobre la unidad Ui i = 1, 2 ,..., n. Consideramos ahora una cierta funcin e de los N valores Xi, por ejemplo, el total poblacional e(X1, ...,XN) = Xi para la caracterstica X, o la media poblacional e(X1, ..., XN) = (Xi )/N para la caracterstica X, que suele denominarse parmetro poblacional. Seleccionamos una muestra s, y a partir de ella queremos estimar el parmetro poblacional e mediante una funcin e = e (s(X))= e (X1, ..., Xn ), basada en los valores Xi i = 1, 2, ..., n, que toma la caracterstica X sobre las unidades de la muestra s (por ejemplo, el total muestral e (X1, ..., Xn) = Xi, o la media muestral e (X1, ..., Xn) = (Xi )/n, para estimar el total poblacional o la media poblacional, respectivamente. La funcin e que asocia a cada muestra s el valor numrico (s(X)) = e (X1, ..., Xn), se denomina estimador del parmetro poblacional e. A los valores e (s(X)) para cada s, se los denomina estimaciones. e

Muestreo estadstico: conceptos, estimadores y su distribucin

Dada la muestra s = {u1, u2, ..., un}, es habitual especificar el conjunto de valores Xi i = 1, 2, ..., n que toma la caracterstica X sobre las unidades de la muestra s mediante s(X)={X1, X2, ..., Xn}. Al considerar todas las muestras s del espacio muestral S asociado al procedimiento de muestreo, y los valores que toma la caracterstica X sobre dichas muestras, se obtiene el conjunto S(X) = {s(X) / sDS}. Por tanto, podemos formalizar el concepto de estimador e$ para el parmetro poblacional e definindolo mediante la aplicacin medible:
: S (X ) R n A R e

( X 1 L X n ) A e( X 1 L X n ) = t

Ya tenemos definido el estimador como un estadstico funcin de los valores que toma la caracterstica X sobre los elementos del espacio muestral (muestras). Como ejemplos ms sencillos de estimadores de los parmetros poblaciones total poblacional y media $ , definidos como $ y media muestral X poblacional, tenemos los estimadores total muestral X se indica a continuacin:
: S (X ) R n A R e 1
: S (X ) R n A R e 2

( X 1 L X n ) A e1 ( X 1 L X n ) = X 1 + L + X n

=X

( X 1 L X n ) A e2 ( X 1 L X n ) =

En cuanto a la construccin del estimador, ha de ser tal que la funcin e$ que asocia a cada muestra s el valor numrico e$ (s(X)) = e$ (X1, ..., Xn) sea calculable y est definida para todas las muestras s del espacio muestral S generado por el procedimiento de muestreo considerado. La formacin de estimadores no es una operacin independiente del procedimiento de muestreo que se adopte. Generalmente, para construir estimadores se utiliza el principio de analoga; es decir, se estima un parmetro poblacional a partir del estimador muestral anlogo. Por ejemplo, para estimar la media poblacional, la razn poblacional, etc., se utilizan como estimadores sus anlogos muestrales, es decir, la media muestral, la razn muestral, etc. No siempre estos estimadores por analoga tienen las propiedades ms deseables, pero suelen ser siempre consistentes, y a veces puede corregirse su sesgo multiplicndolos por una constante convenientemente elegida.

X1 + L + X n =X n

Distribucin de un estimador en el muestreo


Se denomina distribucin de probabilidad de una variable aleatoria a la funcin que asigna probabilidad a los valores que puede tomar la variable. Cuando se especifican los posibles valores de la variable aleatoria y sus probabilidades respectivas, tenemos construido el modelo de distribucin de probabilidad. En nuestro caso la variable aleatoria es el estimador, y los posibles valores que puede tomar son las estimaciones, con lo que habremos obtenido la distribucin de probabilidad en el muestreo para el estimador cuando conozcamos todos los valores posibles del estimador junto con las probabilidades de que el estimador tome cada valor. En el prrafo anterior hemos formalizado el concepto de estimador e$ para el parmetro poblacional e, definindolo mediante la variable aleatoria (aplicacin medible):
: S (X ) R n A R e

( X 1 L X n ) A e( X 1 L X n ) = t

(X1, ..., Xn) = t}. El conjunto TR Sea T = {tDR / (X1, ..., Xn)DS(X) que cumple e constituye el conjunto de valores del estimador. Ahora vamos a definir las probabilidades de que el estimador tome estos valores (ley de probabilidad de la variable aleatoria e$ ) como sigue:

Muestreo estadstico. Conceptos y problemas resueltos

PT( e (X1, ..., Xn ) = t) =

i ( S ( X )) = t } {Si / e i

P( s )

Al par {T, PT}, formado por el conjunto de todos los posibles valores del estimador y por las probabilidades de que el estimador tome esos valores, se lo denomina distribucin del estimador en el muestreo. A partir de la introduccin del concepto de muestreo probabilstico y del conocimiento de la distribucin de los estimadores en el muestreo, tanto la teora de la probabilidad como la inferencia estadstica estn disponibles para ser aplicadas al muestreo. En todo el desarrollo de este libro se supone la existencia de muestreo probabilstico.

PROPIEDADES Y PRECISIN DE LOS ESTIMADORES. COMPARACIN DE ESTIMADORES


Como un estimador e$ de un parmetro poblacional e es sencillamente una variable aleatoria unidimensional, nos interesarn sus caractersticas de centralizacin y dispersin, particularmente su esperanza, su varianza y sus momentos, as como otras medidas relativas a su precisin.

Precisin de los estimadores


Para analizar la precisin de un estimador suelen utilizarse los conceptos de error de muestreo (o desviacin tpica), acuracidad (o error cuadrtico medio) y sesgo. Suele llamarse precisin a la acuracidad, lo que no es del todo correcto, ya que, aunque la acuracidad sea la magnitud ms general para la medicin de la precisin, hay casos en los que el anlisis puede realizarse en funcin de otras magnitudes, como el sesgo o la desviacin tpica. Todas estas magnitudes que influyen en la precisin de un estimador pueden relacionarse a partir de la descomposicin del error cuadrtico medio en sus componentes de la forma siguiente:
=m e 2 + Be ECM e

() ()

()

Por tanto, la acuracidad (error cuadrtico medio) de un estimador se descompone en la suma del cuadrado del error de muestreo y el cuadrado del sesgo.

no es influyente cuando En la prctica, se considera que el sesgo de e


Comparacin de estimadores insesgados

Be 1 . < 10 me

() ()

Un estimador e$ insesgado para el parmetro poblacional e tiene la propiedad de que su error cuadrtico medio coincide con su varianza, ya que al ser E e = e se tiene:

()

= Ee < E (e ) 2 = E e <e Ve

() (

) = ECM (e

De esta forma los conceptos de acuracidad y error del estimador son similares para estimadores insesgados. Por tanto, para comparar varios estimadores insesgados e$i del parmetro poblacional e en cuanto a precisin bastar considerar sus errores de muestreo m (ei ) = + V ( ei ) , siendo ms preciso el estimador que menor error de muestreo presente.

Muestreo estadstico: conceptos, estimadores y su distribucin

Tambin en el caso de insesgadez el concepto de error relativo de muestreo puede expresarse en trminos de una nica magnitud variable m e ya que:

()

= me =me CV e ) e E (e

() ()

()

y al ser e una constante el error relativo est en funcin slo del error de muestreo. Con lo que resulta que, en el caso de estimadores insesgados, la precisin puede hacerse depender exclusivamente del error de muestreo m e .

()

Comparacin de estimadores sesgados


Para estimadores e$ sesgados del parmetro poblacional e, la magnitud general para analizar su precisin es su error cuadrtico medio. Por tanto, para comparar varios estimadores sesgados del parmetro poblacional e en cuanto a precisin se utilizar el error cuadrtico medio y el estimador ms preciso ser el que menor error cuadrtico medio presente. Pero en la prctica el clculo del error cuadrtico medio puede ser problemtico. Por esta razn, cuando se intentan comparar varios estimadores e$i del parmetro poblacional e todos sesgados, se calcula para cada uno de ellos la cantidad:
Be i me
i

( ) ( )

siendo ms preciso aquel estimador que presenta una relacin del sesgo al error de muestreo en valor absoluto ms pequea. Tambin puede utilizarse el coeficiente de variacin = m (e ) / E (e ) , siendo ms preciso el estimador con menor coeficiente de variacin CV e i i i (error relativo). Se observa que el denominador del coeficiente de variacin es el valor esperado del estimador, con lo que el coeficiente de variacin recoge el efecto de un posible sesgo en el estimador.

()

Si los estimadores sesgados a comparar tienen todos sesgo despreciable, es decir,


) / m (e ) < 1 / 10 , se compararan como si fuesen insesgados, de acuerdo con lo expresado B(e i i

en el apartado anterior.

Comparacin de estimadores sesgados e insesgados


Para comparar en cuanto a precisin varios estimadores e$i unos sesgados y otros insesgados del parmetro poblacional e, se utilizar el error cuadrtico medio, y el estimador ms preciso ser el que menor error cuadrtico medio presente. A veces, ante las dificultades de clculo del error cuadrtico medio se utiliza el coeficiente de variacin = m (e ) / E (e ) (que contempla el posible efecto del sesgo en su denominador), siendo CV e i i i ms preciso el estimador con menor coeficiente de variacin (error relativo).

()

Muestreo estadstico. Conceptos y problemas resueltos

Si los estimadores sesgados tienen todos sesgo despreciable, B(ei ) / m (ei ) < 1 / 10 , se hara la comparacin global como insesgados de acuerdo con los valores de m (ei ) .

Cuantificacin de la ganancia en precisin de los estimadores


Para medir la precisin de los estimadores suele utilizarse el error cuadrtico medio, el error relativo (coeficiente de variacin) o el error de muestreo (desviacin tpica). En cada caso, la ganancia en precisin estar dada por las respectivas tasas de variacin:
) ECM (e 1 < 1 x100 ECM (e ) 2 ) CV (e 1 < 1 x100 CV (e ) 2 ) m (e 1 < 1 x100 m (e ) 2

ESTIMACIN POR INTERVALOS DE CONFIANZA


Al estimar parmetros de la poblacin en estudio basndose en la informacin contenida en la muestra, pueden usarse los valores puntuales de un estadstico basado en la misma, o puede utilizarse un intervalo de valores dentro del cual se tiene confianza de que est el valor del parmetro. En el primer caso estamos ante el proceso de estimacin puntual, en el que utilizamos directamente los valores de un estadstico, denominado estimador puntual, sobre la muestra dada (estimaciones puntuales), para estimar los valores poblacionales. En el segundo caso estamos ante la estimacin por intervalos, donde se calcula un intervalo de confianza en el que razonablemente cae el valor estimado con un nivel de confianza prefijado. Obtener una estimacin por intervalos (o definir un intervalo de confianza) para un parmetro poblacional e al nivel de confianza _ consiste en hallar un intervalo real para el que se tiene una probabilidad 1< _ de que el verdadero valor del parmetro e caiga dentro del citado intervalo. El valor 1< _ suele denominarse coeficiente de confianza.

Intervalos de confianza cuando el estimador es insesgado


En este caso se persigue estimar el parmetro poblacional e mediante un intervalo de confianza basado en el estimador e insesgado para e (E( e ) = e ). Para estimadores insesgados, es necesario distinguir entre el caso en que la distribucin del estimador es normal y el caso en que dicha distribucin no puede asegurarse que sea normal. a) El estimador e$ tiene una distribucin normal El intervalo de confianza para el parmetro poblacional e basado en e ser:

[e < h m (e),e + h m (e)] con h


_ _

_ <1 = FN (0,1) 1 < 2

F es la funcin de distribucin de la normal (0,1), y _ es el nivel de confianza. Si realmente es dudoso que e$ tenga una distribucin normal, puede utilizarse la distribucin t de Student con n < 1 grados de libertad para calcular el intervalo de confianza para e que, en este caso, ser:

Muestreo estadstico: conceptos, estimadores y su distribucin

[e < t m (e),e + t m (e)] con


_ _

_ t_ = Ftn<<11 1 < 2

F es la funcin de distribucin de una t de Student con n < 1 grados de libertad. b) El estimador e$ no tiene una distribucin normal El intervalo de confianza, derivado de la desigualdad de Tchevichev, para el parmetro poblacional e basado en e$ que cubre el valor de e con una probabilidad 1< _ (coeficiente de confianza), ser:
< m e ,e +m e e _ _

()

( )

Este intervalo suele ser ms ancho que el obtenido cuando la distribucin de e$ es normal. A medida que e$ se aleja ms de la normalidad, la anchura de este intervalo es mucho mayor respecto del obtenido para normalidad. Ya sabemos que una estimacin por intervalos es tanto mejor cuanto ms reducido sea el intervalo de confianza correspondiente; de ah que la propiedad de normalidad sea muy deseable, pues en este caso los intervalos obtenidos son muy estrechos, lo que implica una buena estimacin por intervalos.

Intervalos de confianza en estimadores sesgados


El intervalo de confianza para e basado en el estimador e$ en presencia del sesgo no despreciable B e = E e < e es el siguiente:

() ()

[e < h m (e)< | B(e) |,e + h m (e)< | B(e) |]


_ _

Observamos que se trata de un intervalo no centrado en e y desplazado en la cantidad B e respecto del intervalo sin sesgo, que debe centrarse situndonos en la peor de las circunstancias, es decir, tomando como extremo fijo del intervalo el ms lejano del centro , y calculando el otro extremo por equidistancia al centro. Ante esta situacin, la presencia e del sesgo B e origina que el intervalo de confianza para e basado en el estimador e y

()

centrado en e , tenga una longitud superior al intervalo cuando no hay sesgo. Por tanto, la presencia de sesgo conduce a una estimacin por intervalos menos precisa. El intervalo de confinaza ya centrado ser el siguiene:

()

[e < h m (e)< | B(e) |,e + h m (e)+ | B(e) |]


_ _

10

Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
1.1.
Sobre las regiones que componen un determinado pas se mide la variable X=Nmero de personas activas, obteniendo como resultados 6 millones, 4 millones, 3 millones y 8 millones con probabilidades iniciales de seleccin 1/6, 1/3, 1/3 y 1/6, respectivamente, para cada regin. Se trata de estimar en millones de personas la cifra media de actividad, extrayendo muestras de la variable X con tamao 2 sin reposicin y sin tener en cuenta el orden de colocacin de sus elementos. Para ello se consideran los estimadores alternativos MEDIANA y MEDIA ARMNICA. Se pide lo siguiente: 1) Especificar el espacio muestral definido por este procedimiento de muestreo, las probabilidades asociadas a las muestras y la distribucin en el muestreo de los dos estimadores. Analizar la precisin de los dos estimadores. Cul de ellos es mejor? 2) Hallar intervalos de confianza para la mediana y la media armnica basados en la muestra de mayor probabilidad para un nivel de confianza del 2 por mil ( _ = 0,002). Como dato se sabe que F-1(0.999)= 3, siendo F la funcin de distribucin de la normal (0,1). Comentar los resultados relacionndolos con los del apartado 1. Tenemos un procedimiento de muestreo sin reposicin en el que no interviene el orden de colocacin de las unidades en las muestras, con lo que el espacio muestral tendr
4 2 = 6 muestras.

A continuacin se especifican las muestras, sus probabilidades y los valores de los


y media armnica X estimadores mediana M H para cada muestra.
S ( X ) P( X ) (6 4) 3 / 20 (6 3) 3 / 20 (6 8) 1 / 15 (4 3) 1 / 3 (4 8) (3 8) M 5 9/2 7 7/2 XH 24 / 5 4 48 / 7 24 / 7

3 / 20 6 16 / 3 3 / 20 11 / 2 48 / 11

Dado que no hay reposicin y que no importa el orden de colocacin de los elementos en las muestras (muestras con los mismos elementos colocados en orden diferente se consideran la misma muestra), las probabilidades de la columna P(X) se han calculado de la siguiente forma:
P (6,4) = P{6,4} + P{4,6} = P (6) P (4 / 6) + P (4) P (6 / 4) = 1 2 2 1 3 u + u = 6 5 6 4 20 1 2 2 1 3 P (6,3) = P{6,3} + P{3,6} = P (6) P (3 / 6) + P (3) P (6 / 3) = u + u = 6 5 6 4 20 1 1 1 1 1 P (6,8) = P{6,8} + P{8,6} = P (6) P (8 / 6) + P (8) P (6 / 8) = u + u = 6 5 6 5 15

Muestreo estadstico: conceptos, estimadores y su distribucin


2 2 2 2 1 u + u = 6 4 6 4 3 2 1 1 2 3 P (4,8) = P{4,8} + P{8,4} = P (4) P (8 / 4) + P (8) P (4 / 8) = u + u = 6 4 6 5 20 2 1 1 2 3 P (3,8) = P{3,8} + P{8,3} = P (3) P (8 / 3) + P (8) P (3 / 8) = u + u = 6 4 6 5 20 P(4,3) = P{4,3} + P{3,4} = P (4) P (3 / 4) + P (3) P (4 / 3) =

11

Las probabilidades anteriores tambin pueden calcularse mediante la expresin P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj)=P(ui)P(uj)/(1-P(ui))+P(uj)P(ui)/(1-P(uj)) = PiPj/(1-Pi) + PiPj(1-Pj). Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la expresin ya conocida PT( e (X1, ...,Xn ) = t) = P(S i ), de la siguiente forma:
( S ( X )) = t } {Si / e i

T P (M P T (M P T (M M P T (M P T (M T P (M

3 20 9 3 = ) = P (6,3) = 2 20 1 = 7) = P (6,8) = 15 7 1 = ) = P (4,3) = 2 3 3 = 6) = P (4,8) = 20 11 3 = ) = P (3,8) = 2 20 = 5) = P (6,4) =

T P ( X H P T ( X H P T ( X H XH P T ( X H P T ( X H T P ( X H

24 3 ) = P (6,4) = 5 20 3 = 4) = P (6,3) = 20 48 1 = ) = P (6,8) = 7 15 24 1 = ) = P (4,3) = 7 3 16 3 = ) = P (4,8) = 3 20 48 3 = ) = P (3,8) = 11 20 =

Una vez conocida la distribucin de probabilidad en el muestreo de los dos estimadores analizaremos si son insesgados o no. Para ello calculamos en primer lugar los valores de la mediana y media armnica poblacionales como sigue:
M = (4 + 6) / 2 = 5 XH = 4 = 4,57 1/ 6 + 1/ 4 + 1/ 3 + 1/ 8

Ahora, para comprobar la insesgadez, hallamos la esperanza de los estimadores:


) =5u E (M 3 9 3 1 7 1 3 11 3 + u + 7u + u + 6u + u = 4,78 & X = 5 20 2 20 15 2 3 20 2 20

24 3 3 48 1 24 1 16 3 48 3 E( X H ) = u + 4u + u + u + u + u = 4,37 & X H = 4,57 5 20 20 7 15 7 3 3 20 11 20

Vemos que los dos estimadores son sesgados y los valores de sus sesgos son:
) = E( X B(M ) < X = 4,78 < 5 = <0,22 B( X H ) = E( X H ) < X H = 4,37 < 4,57 = <0,2

Ahora calculamos las varianzas de los dos estimadores como sigue:


) = E(M < 4,78) 2 = (5 < 4,78) 2 u 3 + ( 9 < 4,78) 2 u 3 + (7 < 4,78) 2 u 1 + ( 7 < 4,78) 2 u 1 + (6 < 4,78) 2 u 3 V (M 20 2 20 15 2 3 20 11 3 2 + ( < 4,78) u = 1,19 2 20

12

Muestreo estadstico. Conceptos y problemas resueltos

24 3 3 48 1 V ( X H ) = E ( X H < 4,37) 2 = ( < 4,37) 2 u + (4 < 4,37) 2 u + ( < 4,37) 2 u 5 20 20 7 15 24 16 3 48 3 2 1 2 2 + ( < 4,37) u + ( < 4,37) u + u ( < 4,37) = 0,89 7 3 3 20 11 20

Ya que los dos estimadores son sesgados se pueden hacer las comparaciones a travs Be i para ver si el del error cuadrtico medio, pero antes se deben calcular las cantidades m ei sesgo es o no despreciable. Tenemos:

( ) ( )

) 0,22 B(M = = 0.2, ) m(M 1,19

) 0,2 B(X H = = 0,2 0,89 m(XH )

Los dos valores son superiores a 1/10, con lo que el sesgo no resulta despreciable en ningn caso (los dos estimadores son igualmente precisos segn la razn del sesgo a la desviacin tpica). Calculamos ahora los errores cuadrticos medios para aquilatar mejor la diferencia de precisiones y ver realmente qu estimador es mejor.
) = E(M < 5)2 = (5 < 5)2 u 3 + ( 9 < 5)2 u 3 + (7 < 5)2 u 1 + ( 7 < 5)2 u 1 + (6 < 5)2 u 3 + (11 < 5)2 u 3 = 1,24 ECM(M 20 2 20 15 2 3 20 2 20 3 48 1 24 1 24 3 ECM( X H ) = E( X H < 4,57)2 = ( < 4,57)2 u + (4 < 4,57)2 u + ( < 4,57)2 u + ( < 4,57)2 u 20 20 7 15 7 3 5 16 48 3 2 3 2 + ( < 4,57) u + u ( < 4,57) = 0,93 3 20 11 20

El mejor estimador resulta ser la media armnica porque tiene menor error cuadrtico medio. Para cuantificar las ganancias en precisin calculamos:
1, 24 < 1 u 100 = 33 ,33 0 , 93

Se observa que el uso de la media armnica mejora en un 33,33% la estimacin a partir de la mediana. Para calcular los intervalos de confianza par la mediana y la media armnica basados en la muestra de mayor probabilidad (4,3), una vez que ya sabemos que son sesgados con sesgo influyente (no despreciable), utilizamos la expresin:
<h m e <| Be |, e +h m e + | Be |] [e _ _

() ()

() ()

Tenemos:
A [7 / 2 < 3 1,19 < | <0,22 |, 7 / 2 + 3 1,19 + | <0,22 |] = [0,004, 6,99] M
A [24 / 7 < 3 0,89 < | <0,2 |, 24 / 7 + 3 0,89 + | <0,2 |] = [0,39, 6,45] X H

Se observa que el intervalo ms estrecho es el relativo a la media armnica, ya que es el estimador ms preciso.

Muestreo estadstico: conceptos, estimadores y su distribucin

13

Los clculos pueden automatizarse con EXCEL como sigue:

Los resultados son los siguientes:

14

Muestreo estadstico. Conceptos y problemas resueltos

1.2.

Dada la poblacin {U1, U2, U3, U4, U5} seleccionamos muestras de tamao 3 por el siguiente mtodo de muestreo: De un recipiente que contiene tres bolas numeradas del 1 al 3 se extraen al azar dos bolas mediante muestreo aleatorio sin reposicin con probabilidades iguales, y a continuacin, de otro recipiente con dos bolas numeradas con el 4 y el 5 se extrae una bola. Se supone que extraer la bola i-sima equivale a elegir para la muestra la unidad Ui. Consideramos los estimadores por analoga siguientes:
= Proporcin de subndices pares en la muestra T 1 T2 = Total de subndices impares en la muestra y T y sus varianzas, sesgos y errores 1) Hallar las distribuciones en el muestreo de T 1 2 cuadrticos medios.

2) Comparar las precisiones de los estimadores anteriores cuantificando las ganancias en precisin tanto por la va de la estimacin puntual como por la va de la estimacin por intervalos al 95%. Comentar los resultados. Para hallar el espacio muestral asociado a este procedimiento de muestreo consideramos la urna U1 con tres bolas y la urna U2 con dos bolas. 1, 2 , 3 U1 4, 5 U2

Como en la urna U1 seleccionamos dos bolas sin reposicin, las posibilidades son (A1 A2), (A1 A3) y (A2 A3). Como para cada par de bolas seleccionadas de la urna U1 se selecciona una bola en la urna U2, las posibles muestras de tres elementos sern (A1 A2 A4), (A1 A2 A5), (A1 A3 A4), (A1 A3 A5), (A2 A3 A4) y (A2 A3 A5). Las probabilidades de las muestras se calculan como se indica a continuacin: P(A1 A2 A4) = P(A1 A2 /U1)P(A4/U2) + P(A2 A1/U1)P(A4/U2) = P1(A1)P1(A2/A1)P2(A4) + P1(A2 )P1(A1 / A2)P2(A4) = (1/3)(1/2)(1/2) + (1/3)(1/2)(1/2) = 1/6 P(A1 A2 A5) = P(A1 A2/U1)P(A5/U2) + P(A2 A1/U1)P(A5/U2) = P1(A1 )P1(A2/A1)P2(A5) + P1(A2)P1(A1/A2)P2(A5) = (1/3)(1/2)(1/2) + (1/3)(1/2)(1/2) = 1/6 El clculo de las probabilidades de las restantes muestras es similar, y el valor es 1/6 para todas ellas; es decir, estamos ante un mtodo de seleccin con probabilidades iguales. Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus probabilidades Pi y los y T , datos que van a valores de los dos estimadores del problema sobre las mismas T 1 2 permitirnos el clculo de las distribuciones en el muestreo de los estimadores. En el siguiente cuadro se especifican las muestras, sus probabilidades y los valores de los estimadores para cada muestra.

Muestreo estadstico: conceptos, estimadores y su distribucin


T 1 2/3 1/ 3 1/ 3 0 2/3 1/ 3 T 2 1 2 2 3 1 2

15

S_ X A1 A 2 A 4 A1 A 2 A 5 A1 A 3 A 4 A1 A 3 A 5 A 2 A3 A 4 A 2 A3 A5

Pi 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6 1/ 6

Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la expresin ya conocida PT( e (X1, ...,Xn ) = t) = P(S i ), de la siguiente forma:
( S ( X )) = t } {Si / e i

1 1 T P (T 1= 2 / 3) = 2 u 6 = 3 1 1 T T = 1 P (T 1= 1 / 3) = 3 u 6 2 1 T P (T 1= 0) = 6

1 1 T P (T 2 = 1) = 2 u 6 = 3 1 1 T T = 1 P (T 2 = 2) = 3 u 6 2 1 T P (T 2 = 3) = 6

Una vez conocida la distribucin de probabilidad en el muestreo de los dos estimadores analizaremos si son insesgados o no. Para ello calculamos en primer lugar los valores de la proporcin de subndices pares de la poblacin e1 y del total de subndices impares de la poblacin y T , respectivamente. e2, que son los parmetros que estamos estimando con los estimadores T 1 2 Se tiene:

e1 = 2/3 e2 = 3
Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores tal y como se indica a continuacin:
) = 2 u 1 + 1 u 1 + 0 u 1 = 7 / 18 = 0,388888888& 2 / 5 = e E(T 1 1 3 3 3 2 6 ) = 1u 1 + 2 u 1 + 3 u 1 = 11 / 6 = 1,8333333333& 3 = e E(T 2 2 3 2 6

es sesgado con sesgo B( T ) = E( T ) <e1=7/18 < 2/5 = <1/90 = El estimador T 1 1 1 ) = E( T ) < e2 = 11/6 < 3 = <0,0111, y el estimador T2 tambin es sesgado con sesgo B( T 2 2 <7/6 = <1,16666. Las varianzas de los estimadores son:
) = ( 2 < 0,388 ) 2 u 1 + ( 1 < 0,388 ) 2 u 1 + (0 < 0,388 ) 2 u 1 = 0,0524 V (T 1 3 2 6 3 3 1 1 1 ) = (1 < 1,833 ) 2 u + ( 2 < 1,833 ) 2 u + (3 < 1,833 ) 2 u = 0,4722 V (T 2 3 2 6

Con lo que las desviaciones tpicas valdrn:


) = 0,0524 = 0,2289 y m (T ) = 0,4722 = 0,687 m (T 1 2

16

Muestreo estadstico. Conceptos y problemas resueltos

)/m( T )| = 0,0485 < 1/10, el sesgo del estimador T es despreciable, por lo Como |B( T 1 1 1 )| = 1,69 > 1/10 que este puede considerarse a todos los efectos insesgado. Como |B( T )/m( T no es despreciable, y como un estimador es sesgado y el otro el sesgo del estimador T 2 insesgado, la comparacin de estimadores puede hacerse a travs de los errores cuadrticos medios. Tenemos:
) = ( 2 < 0,4) 2 u 1 + ( 1 < 0, 4) 2 u 1 + (0 < 0, 4) 2 u 1 = 0,0526 ECM (T 1 3 3 3 2 6 1 1 1 2 2 2 ) = (1 < 3) u + ( 2 < 3) u + (3 < 3) u = 1,833 ECM (T 2 3 2 6
2 2

es prcticamente igual que su Se observa que el error cuadrtico medio de T 1 , varianza, dado que es prcticamente insesgado. Evidentemente el mejor estimador es T

. La ganancia en precisin por pues su error cuadrtico medio es mucho menor que el de T 2 en vez de T es: usar T
1
2

)/EMC( T ) < 1)*100 = (1,833/0,0526 < 1)*100 = 3385,9% GP = (EMC( T 2 1 (que es insesgado) basado en la primera Para hallar un intervalo de confianza para T 1 muestra y suponiendo normalidad en la poblacin se utilizar la frmula:
<h m T ,T +h m T ] = [2 / 3 <1.96* 0.229, 2 / 3 + 1.96* 0.229] = [0.217, 1.15] [T 1 _ 1 1 _ 1

( )

( )

Para el resto de las muestras se realizan clculos similares. Se puede suponer normalidad en la poblacin porque el coeficiente de asimetra g1 y el caen en el intervalo [-2,2]. El coeficiente de asimetra depende coeficiente de curtosis g2 de T 1 del momento de tercer orden centrado en la media m3 y el coeficiente de curtosis depende del momento de orden 4 centrado en la media m4 y se calculan como sigue: g1 = m3/m3 = <0,0027/0,2293 = 0,22 g2 = m4/m4<3 = <0,0058/0,2294 <3 = <0,89
) = ( 2 < 0,388 ) 3 u 1 + ( 1 < 0,388 ) 3 u 1 + (0 < 0,388 ) 3 u 1 = 0, 22 m 3(T 1 3 3 3 2 6 2 1 1 1 ) = ( < 0,388 ) 4 u + ( < 0,388 ) 4 u + (0 < 0,388 ) 4 u 1 = <0,89 m 4(T 1 3 3 3 2 6

se habra calculado Si no hubiera habido normalidad, el intervalo de confianza para T 1 como sigue:

< m T1 , T + m T1 = 2 / 3 < 0,229 , 2 / 3 + 0,229 = [0.357, 1.69] T 1 1 _ _ 0,05 0,05


sin existir normalidad es ms ancho, Se observa que el intervalo de confianza para T 1 es decir, es menos preciso.

( )

( )

Muestreo estadstico: conceptos, estimadores y su distribucin

17

(que es sesgado) basado en la primera Para hallar un intervalo de confianza para T 2 muestra, realizamos los siguientes clculos:
<h m T <| BT |, T +h m T +| BT |] = [1 <1.96* 0.687+ 0.16, 1 + 1.96* 0.687+ 0.16] = [<1.513, 3.513] [T 2 _ 2 2 2 _ 2 2

() ()

() ()

Se observa que el intervalo de confianza del estimador menos preciso es ms ancho. Los clculos pueden automatizarse con Excel como sigue:

18

Muestreo estadstico. Conceptos y problemas resueltos

1.3.

En una poblacin de 3 unidades numeradas {U1, U2, U3} se extraen muestras de tamao 2 mediante el siguiente mtodo de muestreo: Se extraen al azar 2 bolas de una urna que contiene 6 bolas (tres con el nmero 1, dos con el nmero 2 y una con el nmero 3), y se extraen de la poblacin las dos unidades que tengan los mismos nmeros que las dos bolas extradas. Se pide: 1) Considerando la extraccin de las bolas en la urna con reposicin y el estimador por analoga T= Nmero de unidades distintas en las muestras, hallar su distribucin en el muestreo analizando su precisin. Obtener una estimacin puntual del nmero de unidades distintas en la poblacin y otra por intervalos al 99,8% de confianza (F-1(0,999) = 3) basndose en la muestra de mayor probabilidad. 2) Contestar a las preguntas del apartado anterior suponiendo que la extraccin de las bolas en la urna sin reposicin. Comparar las estimaciones en los dos casos comentando los resultados. Para hallar el espacio muestral asociado a este procedimiento de muestreo sin reposicin consideramos la urna U con 6 bolas (tres con el nmero 1, dos con el nmero 2 y una con el nmero 3).

3 1 1 1 U Como en la urna U seleccionamos dos bolas sin reposicin, las posibilidades son (1,1), (1,2), (1,3), (2,2) y (2,3). Las probabilidades de las muestras se calculan como se indica a continuacin: 2 2

P(1,1) = P1 (1) + P2 (1 / 1) =

3 2 2 3 2 u + u = 6 5 6 5 5 3 1 1 3 1 P(1,3) = P{1,3} + P{3,1} = P1 (1) P2 (3 / 1) + P1 (3) P2 (1 / 3) = u + u = 6 5 6 5 5 2 1 1 P(2,2) = P1 (2) u P2 (2 / 2) = u = 6 5 15 2 1 1 2 2 P(2,3) = P{2,3} + P{3,2} = P1 (2) P2 (3 / 2) + P1 (3) P2 (2 / 3) = u + u = 6 5 6 5 15 P(1,2) = P{1,2} + P{2,1} = P1 (1) P2 (2 / 1) + P1 (2) P2 (1 / 2) =

3 2 1 u = 6 5 5

Los ndices 1 y 2 de las probabilidades indican primera y segunda extraccin, respectivamente. Las barras inclinadas indican condicionada a que se haya obtenido en la primera extraccin el nmero que aparece en el denominador.

Muestreo estadstico: conceptos, estimadores y su distribucin

19

Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos van a permitir el clculo de la distribucin en el muestreo del estimador. En el siguiente cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada muestra.
Muestras ( sin reposicn ) 1 2 3 4 5 S_X (1,1) (1, 2 ) (1,3) ( 2, 2 ) ( 2 ,3 ) Pi 1/ 5 2/5 1/ 5 1 / 15 2 / 15 T 1 2 2 1 2

La distribucin de probabilidad del estimador en el muestreo se calcularn mediante la expresin ya conocida PT( e (X1, ...,Xn ) = t) = P(S i ), de la siguiente forma:
( S ( X )) = t } {Si / e i

1 1 4 T P (T = 1) = + = 5 15 15 T P T (T = 2) = 2 + 1 + 2 = 11 5 5 15 15

Una vez conocida la distribucin de probabilidad en el muestreo del estimador analizaremos si es insesgado o no. Para ello observamos que el valor del nmero de unidades distintas en la poblacin es e = 3, que es el parmetro que estamos estimando con el estimador T. Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica del estimador tal y como se indica a continuacin:

E (T ) = 1 u

4 11 + 2 u = 26 / 15 = 1,7333333333 & 3 = e 15 15

El estimador T es sesgado con sesgo B(T)=E(T) <e = 26/15-3 = <19/15 = <1,26666. La varianza del estimador es la siguiente:
V (T ) = (1 < 1,733 ) 2 u 4 11 + ( 2 < 1,733 ) 2 u = 0,1955 15 15

Con lo que las desviaciones tpicas valdrn:


m (T ) = 0,1955 = 0,442

Como |B(T)/m(T)| = 1,266/0,442 = 2,864 > 1/10, el sesgo del estimador T no es despreciable, por lo que calcularemos su precisin mediante el error cuadrtico medio. Tenemos:
ECM (T ) = (1 < 3) 2 u 11 4 + ( 2 < 3) 2 u = 1,8 15 15

20

Muestreo estadstico. Conceptos y problemas resueltos

Para hallar un intervalo de confianza para T (que es sesgado) basado en la segunda muestra (que es la de mayor probabilidad), realizamos los siguientes clculos:

[T < h_m (T )< | B(T ) |, T + h_m (T )+ | B(T ) |] = [2 < 3 * 0,442 < 1,26 + 3 * 0,442 + 1,26] = [<0,593, 4,593]
Los clculos pueden automatizarse con Excel como sigue:

Cuando en la urna U seleccionamos dos bolas con reposicin, las posibilidades son (1,1), (1,2), (1,3), (2,2), (2,3) y (3,3).

Muestreo estadstico: conceptos, estimadores y su distribucin

21

Las probabilidades de las muestras se calculan como se indica a continuacin:

3 3 1 u = 6 6 4 3 2 1 P(1,2) = 2 P(1) u P(2) = 2 u = 6 5 3 3 1 1 P(1,3) = 2 P(1) u P(3) = 2 u = 6 6 6 2 2 1 P(2,2) = P(2) u P(2) = u = 6 6 9 2 1 1 P(2,3) = 2 P(2) u P(3) = 2 u = 6 6 9 1 1 1 P(3,3) = P(3) u P(3) = u = 6 6 36 P(1,1) = P(1) u P(1) =
Ya podemos formar la tabla con las muestras del espacio muestral S_X, sus probabilidades Pi y los valores del estimador T del problema sobre las mismas, datos que nos van a permitir el clculo de la distribucin en el muestreo del estimador. En el siguiente cuadro se especifican las muestras, sus probabilidades y los valores del estimador para cada muestra.
Muestras ( con reposicin ) 1 2 3 4 5 6 S_X (1,1) (1, 2 ) (1,3) ( 2, 2 ) ( 2,3) (3,3) Pi 1/ 4 1/ 3 1/ 6 1/ 9 1/ 9 1 / 36 T 1 2 2 1 2 1

La distribucin de probabilidad del estimador en el muestreo se calcularn mediante la expresin ya conocida PT( e (X1, ...,Xn ) = t) = P(S i ), de la siguiente forma:
( S ( X )) = t } {Si / e i

1 1 1 7 T = P (T = 1) = + + 4 9 36 18 T P T (T = 2) = 1 + 1 + 1 = 11 3 6 9 18

Una vez conocida la distribucin de probabilidad en el muestreo del estimador analizaremos si es insesgado o no. Para ello observamos que el valor del nmero de unidades distintas en la poblacin es e = 3, que es el parmetro que estamos estimando con el estimador T. Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica del estimador tal y como se indica a continuacin:

22

Muestreo estadstico. Conceptos y problemas resueltos

E (T ) = 1 u

7 11 + 2 u = 29 / 18 = 1,611111& 3 = e 18 18

El estimador T es sesgado con sesgo B(T)=E(T)-e = 29/18-3 = -25/18=-1,3888. La varianza del estimador es la siguiente:
V (T ) = (1 < 1,6111) 2 u 7 11 + ( 2 < 1,6111) 2 u = 0,237 18 18

Con lo que las desviaciones tpicas valdr:


m (T ) = 0,237 = 0,486

Como |B(T)/m(T)| = 1,388/0,486 = 2,85 > 1/10, el sesgo del estimador T no es despreciable, por lo que calcularemos su precisin mediante el error cuadrtico medio. Tenemos:
ECM (T ) = (1 < 3) 2 u 7 11 + ( 2 < 3) 2 u = 2,1666 18 18

Para hallar un intervalo de confianza para T (que es sesgado) basado en la segunda muestra (que es la de mayor probabilidad), realizamos los siguientes clculos:

[T < h_ m (T )< | B(T ) |, T + h_ m (T )+ | B(T ) |] = [2 < 3* 0,486<1,38 + 3* 0,486+1,38] = [<0,851 , 4,851 ]


Los clculos pueden automatizarse con Excel como sigue:

Muestreo estadstico: conceptos, estimadores y su distribucin

23

Para comparar las estimaciones con y sin reposicin observamos los errores cuadrticos medios, resultando que el mtodo sin reposicin tiene menor error cuadrtico medio, lo que indica que es mejor mtodo de estimacin. La ganancia en precisin por trabajar sin reposicin en vez de con reposicin se cuantifica como sigue: GP = (EMCCR(T)/EMCSR(T) - 1)*100 = (2,1666/1,8-1)*100=20,37% Se ve que la precisin mejora un 20,37% en caso de usa seleccin sin reposicin. Adems, tambin se observa que el intervalo de confianza del estimador menos preciso (con reposicin) es ms ancho.

1.4.

Con la finalidad de ensayar el anlisis de la divisibilidad en una poblacin numrica, consideramos una poblacin virtual finita con 6 elementos U = {12, 13, 17, 23, 6, 1}. Mediante un mtodo de muestreo aleatorio con probabilidades iguales y sin reposicin se extraen muestras de tamao 2 sin tener en cuenta el orden de colocacin de sus elementos. 1) Cuntos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las probabilidades asociadas a las muestras. 2) A partir de las muestras del espacio muestral se trata de estimar el parmetro poblacional PROPORCIN DE NMEROS PRIMOS mediante el estimador por analoga y el parmetro poblacional TOTAL DE NMEROS PRIMOS mediante el estimador de expansin de la proporcin por el tamao poblacional (producto del estimador de la proporcin por el tamao poblacional). Hallar la distribucin en el muestreo de dichos estimadores. Qu estimador es mejor? Comparar el estimador de expansin del total con el estimador por analoga. 3) Hallar intervalos de confianza al 99% (_ = 0.01) para el total y la proporcin de nmeros primos en la poblacin, basados en las muestras cuyos dos elementos son nmeros no primos. Tenemos como dato conocido que F-1(0.995)= 2.57, siendo F la funcin de distribucin de la normal (0,1). Comentar los resultados. Como se trata de muestreo aleatorio sin reposicin en el que el orden de colocacin de los elementos en las muestras de tamao 2 no interviene, el nmero de muestras posibles ser:

24

Muestreo estadstico. Conceptos y problemas resueltos

6 2 =15
Por otra parte, en este problema estamos considerando la clase A de los nmeros primos, con lo que asociaremos a los Ui los Ai que valen cero cuando Ui no es primo y valen uno cuando Ui es primo. Luego sobre el conjunto UiA{2, 13, 17, 23, 6, 1} se mide la variable A y se obtiene el conjunto AiA{0, 1, 1, 1, 0, 1}. Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn P(ui) = 1/6, i = 1, ..., 6 y la probabilidad de cualquier muestra puede hallarse mediante la expresin: P_X = P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj) = P(ui)P(uj)/(1<P(ui)) + P(uj)P(ui)/(1<P(uj))) = (1/62)/(1<1/6) + (1/62)/(1<1/6) = 2(1/62)/(1<1/6) = 1/15 Se observa que las probabilidades de las muestras sern todas iguales a 1/15. Luego estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. A continuacin se presenta la tabla que contiene el espacio muestral, las probabilidades de las muestras y la distribucin de los estimadores.
S1_X 0 0 0 0 0 1 1 1 1 1 1 1 1 1 0 S2_X 1 1 1 0 1 1 1 0 1 1 0 1 0 1 1 P_X 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15

) PROPORCIN ( P 0,5 0,5 0,5 0 0,5 1 1 0,5 1 1 0,5 1 0,5


1 0,5

=6P ) TOTAL ( A EXPANSIN 3 3 3 0 3 6 6 3 6 6 3 6 3


6 3

) =2P TOTAL ( T MUESTRAL 1 1 1 0 1 2 2 1 2 2 1 2 1


2 1

Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la expresin ya conocida PT( e (X1, ..., Xn ) = t) = P(S i ), de la siguiente forma:
( S ( X )) = t } {Si / e i

1 2 T P ( P = 1) = 6 u 15 = 5 1 8 T P = 1 / 2) = 8 u = P ( P 15 15 1 T P ( P = 0) = 15

1 2 T P ( A = 6) = 6 u 15 = 5 1 8 T A = 3) = 8 u = P ( A 15 15 1 T P ( A = 0) = 15

1 2 T P (T = 2) = 6 u 15 = 5 1 8 T T = 1) = 8 u = P (T 15 15 1 T P (T = 0) = 15

Muestreo estadstico: conceptos, estimadores y su distribucin

25

Una vez conocida la distribucin de probabilidad en el muestreo de los estimadores analizaremos si son insesgados o no. Para ello calculamos en primer lugar los valores de la proporcin de nmeros primos de la poblacin e1 = 2/3 y del total de nmeros primos de la poblacin e2 = 4. Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores tal y como se indica a continuacin:

) = 1u 2 + 1 u 8 + 0 u 1 = 2 / 3 = 0,6666 = e E( P 1 5 2 15 15 ) = 6 u 2 + 3 u 8 + 0 u 1 = 6E ( P ) = 4 = e E( A 2 5 15 15 ) = 4 / 3 = 1,33333 & 4 = e ) = 2 u 2 + 1u 8 + 0 u 1 = 2 E ( P E(T 2 15 15 5


e insesgado para e2. El estimador T es insesgado para e1 y A es Se observa que P sesgado para e2 con sesgo B( T ) = E( T ) < e2 = 4/3 < 4 = <8/3 = <2,66. Para calcular las =6P y que T . = 2P varianzas de los estimadores se tiene en cuenta que A
) = (1 < 0,666) 2 u 2 + ( 1 < 0,666) 2 u 8 + (0 < 0,66) 2 u 1 = 0,088888 V (P 5 2 15 15 ) = 36V ( P ) = 3,2 V ( A) = V (6P ) = V (2 P ) = 4V ( P ) = 0,35555 V (T

Con lo que las desviaciones tpicas valdrn:


) = 3,2 = 1,7888 y m (T ) = 0,088888 = 0,298, m ( A ) = 0,35555 = 0,596 m (P

son insesgados, su varianza coincide con su error cuadrtico y A Como los estimadores P para medio, por lo que su precisin se mide a travs de la varianza. De esta forma, el estimador P para estimar e2 por tener menor varianza. estimar e1 es ms preciso que el estimador A )/m( T )| = 4,46 > 1/10, el sesgo del estimador T no es despreciable y al Como |B( T tenemos un estimador sesgado y el otro insesgado. La comparacin debe compararlo con A hacerse a travs de los errores cuadrticos medios. Tenemos:
) = V (A ) = 3,2 ) = (1 < 4 / 3) 2 u 2 + ( 1 < 4 / 3) 2 u 8 + (0 < 4 / 3) 2 u 1 = 0,53333 > ECM ( A ECM (T 5 2 15 15 , luego es mayor que la varianza de A Se observa que el error cuadrtico medio de T es ms preciso que T para estimar e2. Por lo tanto, el estimador de expansin del total es A ms preciso que el estimador por analoga.

Para el clculo de las estimaciones por intervalos (intervalos de confianza de los estimadores) es til poder suponer que A se distribuye normalmente. Como el coeficiente de asimetra de A vale <0,96 y el de curtosis <1,87, puede ser lgico suponer la normalidad, ya que ambos coeficientes se encuentran en el intervalo [<2,2]. Sin embargo, como el extremo inferior est muy cerca de <2, para aceptar esta suposicin ser necesario realizar un contraste formal de normalidad. Por lo tanto, hallamos los intervalos de confianza bajo las dos hiptesis (normalidad y no normalidad en la poblacin).

26

Muestreo estadstico. Conceptos y problemas resueltos

Los coeficientes de asimetra g1 y curtosis g2 de A se calculan como sigue:


m3 1 2(0 < 2 / 3) 3 + 4(1 < 2 / 3) 3 6 1 2(0 < 2 / 3) 2 + 4(1 < 2 / 3) 2 6

g1 =

m3

] ]

3

= 0,968

g2 =

m4

m4

<3 =

1 2(0 < 2 / 3) 4 + 4(1 < 2 / 3) 4 6 1 2(0 < 2 / 3) 2 + 4(1 < 2 / 3) 2 6

] ]

4

< 3 = <1,875

Supuesta la no normalidad de A, para hallar un intervalo de confianza para la al 99%, basado en la nica muestra (0,0) correspondiente al nico par de proporcin P elementos ambos no primos (12,6), utilizamos el intervalo:

< m (P) , P + m ( P ) = 0 < 0, 298 , 0 + 0, 298 = [< 2 .98 , 2 .98 ] P 0,01 0,01 _ _
al 99% sera: Si se hubiera supuesto normalidad el intervalo de confianza para P

< h m (P ), P + h m (P ) = [0 < 2,57 u 0,298, 0 + 2,57 u 0,298] = [< 0.766, 0.766 ] [P _ _


Se observa que el intervalo de confianza en presencia de normalidad es ms estrecho (ms preciso) que sin normalidad. Dada la no normalidad de A, para hallar un intervalo de confianza para el total de clase A al 99%, basado en la nica muestra (0,0) correspondiente al nico par de elementos ambos no primos (12,6), utilizamos el intervalo:
< m ( A) , A + m ( A) = 0 < 1,7888 , 0 + 1,7888 = [< 17 .8, 17 .8] A 0,01 0,01 _ _
al 99% sera: Si se hubiera supuesto normalidad el intervalo de confianza para A
< h m (A ), A + h m (A ) = [0 < 2,57 u 1,7888 , 0 + 2,57 u 1,7888 ] = [< 4.59, 4,59 ] [A _ _

Se observa que el intervalo de confianza en presencia de normalidad es ms estrecho (ms preciso) que sin normalidad.
son ms estrechos que los Adems, se observa que los intervalos de confianza para P correspondientes intervalos de confianza para A , lo que concuerdo con la superior precisin del . estimador P

Los clculos pueden automatizarse con Excel como sigue:

Muestreo estadstico: conceptos, estimadores y su distribucin

27

28

Muestreo estadstico. Conceptos y problemas resueltos

1.5.

Supongamos que los gastos X y los ingresos Y de una empresa a lo largo de los 6 ltimos meses fueron los siguientes:
X Y 3 4 2 2,5 3,5 4,5 6 7 4 5 6,5 8

Se extraen muestras aleatorias simples de dos meses sin reposicin y con probabilidades iguales y se pide: 1) Distribucin en el muestreo de los estimadores por analoga del gasto total y del estimador por analoga de la proporcin que significan los gastos en los ingresos (razn de gastos totales sobre ingresos totales). Qu estimador es mejor? Calcular la ganancia en precisin y expresar los resultados en trminos de intervalos de confianza al 95% basados en la muestra de mayor total. 2) Distribucin en el muestreo de los estimadores del gasto total siguientes: Estimador de expansin del gasto total. Proporcin de los gastos en los ingresos por el ingreso total poblacional Qu estimador es mejor? Como se trata de muestreo aleatorio sin reposicin en el que se supone que el orden de colocacin de los elementos en las muestras de tamao 2 no interviene, el nmero de muestras posibles, tanto para X como para Y, ser 2 =15.

Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn P(ui) = 1/6, i = 1, ..., 6 y la probabilidad de cualquier muestra, tanto para X como para Y, puede hallarse mediante: P_X = P(ui,uj) = P(ui)P(uj/ui) + P(uj)P(ui/uj) = P(ui)P(uj)/(1<P(ui)) + P(uj)P(ui)/(1<P(uj))) = (1/62)/(1-1/6) + (1/62)/(1-1/6) = 2(1/62)/(1-1/6) = 1/15 = 0,066666 Se observa que las probabilidades de las muestras sern todas iguales a 1/15. Luego estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. A continuacin se presenta la tabla que contiene, para X y para Y, el espacio muestral, las probabilidades de las muestras y la distribucin de los estimadores. Denominamos GTOTAL al estimador por analoga del gasto total (total muestral del gasto) y RAZN al estimador por analoga de la proporcin que significan los gastos en los ingresos (total muestral del gasto entre total muestral del ingreso). Se tendr presente que el estimador expandido del gasto total es el producto del tamao poblacional por la media muestral del gasto (GTOTALEXP = 6(GTOTAL/2) = 3GTOTAL) y que la proporcin de los gastos en los ingresos por el ingreso total poblacional es TOTAL = (36,5)RAZN. En los estimadores, para las cuatro primeras filas de la tabla se indican todas las operaciones y para el resto de las filas las operaciones son similares y se indican slo los resultados.

Muestreo estadstico: conceptos, estimadores y su distribucin


GTOTALEXP TOTAL (3*GTOTAL) (36,5*RAZN)

29

S1_X 3 3 3 3 3 4 4 4 4 2 2 2 2,5 2,5 3,5

S2_X 4 2 2,5 3,5 4,5 2 2,5 3,5 4,5 2,5 3,5 4,5 3,5 4,5 4,5

S1_Y 6 6 6 6 6 7 7 7 7 4 4 4 5 5 6,5

S2_Y 7 4 5 6,5 8 4 5 6,5 8 5 6,5 8 6,5 8 8

P=PX=PY 1/15 1/15

GTOTAL 7=3+4 5=3+2

RAZN 0,53=(3+4)/(6+7) 0,5=(3+2)/(6+4) 0,5=(3+2,5)/(6+5) 0,535714286 0,545454545 0,541666667 0,555555556 0,566666667 0,5 0,523809524 0,541666667 0,52173913 0,538461538 0,551724138

21=3*7 19,65=36,5*0,53 15=3*5 16,5=3*5,5 22,5 18 19,5 22,5 25,5 13,5 16,5 19,5 18 21 24 18,25=36,5*0,5 18,25=36,5*0,5 19,55357143 19,90909091 19,77083333 20,27777778 20,68333333 18,25 19,11904762 19,77083333 19,04347826 19,65384615 20,13793103

1/15 5,5=3+2,5 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 7,5 6 6,5 7,5 8,5 4,5 5,5 6,5 6 7 8

1/15 6,5=3+3,5 0,52=(3+3,5)/(6+6,5)

19,5=3*6,5 18,98=36,5*0,52

Una vez conocida la distribucin de probabilidad en el muestreo de los estimadores compararemos en primer lugar el estimador GTOTAL (que estima el gasto total poblacional e1) y RAZN (que estima la proporcin de los gastos totales sobre los ingresos totales en la poblacin e2). Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores tal y como se indica a continuacin:
E (GTOTAL) = E ( RAZN ) =

GTOTAL P = 7 u 15 + 5 u 15 + L + 8 u 15 = 6,5 & 19,5 = e


i =1 i i 15 i i

15

RAZN P = 0,53 u 15 + 0,5 u 15 + L + 0,55 u 15 = 0,53206 & 0,53424 = e


i =1

Para calcular los sesgos se observa que B(GTOTAL) = E(GTOTAL)<e1 = 6,5<19,5 = <13 y B(RAZN) = E(RAZN) < e2 = 0,53206 < 0,53424 = <0,00218. A continuacin se calculan las varianzas de los estimadores.
V (GTOTAL) = V ( RAZN ) =

(GTOTAL
i =1 15 i

15

< E (GTOTAL) ) Pi = (7 < 6,5) 2 u


2

1 1 + L + (8 < 6,5) 2 u = 1,1666 15 15 1 1 + L + (0,55 < 0,532) 2 u = 0,000399 15 15

(RAZN
i =1

< E ( RAZN ) Pi = (0,53 < 0,532) 2 u

Con lo que las desviaciones tpicas valdrn:

m (GTOTAL) = 1,1666 = 1,08, m ( RAZN) = 0,000399 = 0,0199


Como |B(GTOTAL)/m(GTOTAL)| = 12,03 > 1/10, el sesgo del estimador GTOTAL no es despreciable y como |B(RAZN)/m(RAZN)| = 0,1 ) 1/10, el sesgo de RAZN es despreciable y a todos los efectos este estimador es insesgado. Al comparar RAZN con GTOTAL tenemos un estimador sesgado y el otro insesgado. La comparacin debe hacerse a travs de los errores cuadrticos medios. Tenemos:

30

Muestreo estadstico. Conceptos y problemas resueltos


15

ECM (GTOTAL) =

(GTOTAL
i =1

< e 1 ) Pi = (7 < 19,5) 2 u


2

1 1 + L + (8 < 19,5) 2 u = 170,166 15 15

ECM ( RAZN ) = V ( RAZN ) = 0,00399

Como el estimador RAZN es insesgado, su varianza coincide con su error cuadrtico medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador RAZN para estimar e2 es ms preciso que el estimador GTOTAL para estimar e1 por tener menor error cuadrtico medio. La ganancia en precisin de RAZN respecto de GTOTAL se cuantifica como sigue: GP = (EMC (GTOTAL)/EMC (RAZN) < 1)100 = (170,166/0,00399-1)100 = 42045172,1% El intervalo de confianza para GTOTAL (sesgado) basado en la muestra de mayor total al 95% es el siguiente:
<h m e <| Be |,e +h m e +| Be |] = [8,5 < 1,96 u 1,08 < 13, 8,5 + 1,96 u 1,08 + 13] = [<6.61, 23.61] [e _ _

() ()
()

() ()

Suponiendo normalidad el intervalo de confianza para RAZN (insesgado) al 95% basado en la muestra de mayor total sera:
<h m e ,e +h m e ] = [0,566<1,96u 0,0199, 0,566+1,96u 0,0199] = [0.527, 0.605] [e _ _

()

Se observa que el intervalo de confianza relativo a RAZN es bastante ms estrecho (ms preciso) que el relativo a GTOTAL. Esta fuerte diferencia de anchuras de intervalos est en lnea con la cuanta tan fuerte de ganancia en precisin de RAZN sobre GTOTAL. Para comparar los estimadores del gasto total GTOTAEXP y TOTAL, observamos que GTOTALEXP = 3GTOTAL y TOTAL = (36,5)RAZN. Tenemos: E(GTOTALEXP) = 3E(GTOTAL) = 3(6,5) = 19,5 = e1 E(TOTAL) = (36,5)E(RAZN) = (36,5)(0,532) = 19,42 5 e1 V(GTOTALEXP) = 9V(GTOTAL) = 9(1,166) = 10,5 V(TOTAL) = (36,52)V(RAZN) = (36,52)0,000399 = 0,539 Los dos estimadores han resultado ser insesgados, con lo que ser ms preciso el que tenga menor varianza; es decir, TOTAL es ms preciso que GTOTALEXP. A continuacin se presentan los clculos anteriores automatizados a travs de Excel. Las hoja de Excel con las frmulas se ha dividido en dos trozos debido a la extensin de los clculos necesarios. A continuacin de las dos hojas de frmulas se presenta la hoja de resultados.

Muestreo estadstico: conceptos, estimadores y su distribucin

31

32

Muestreo estadstico. Conceptos y problemas resueltos

1.6.

Consideramos una poblacin virtual para simulacin formada por 10 individuos agrupados en 4 hogares y cuyos ingresos anuales en miles de euros (variable X) se presentan en la tabla adjunta: HOGARES A H1 H2 H3 H4 -- INGRESOS (Xi) A 1, 2, 3 4, 6 9, 11 2, 2, 5 Se considera un procedimiento de muestreo que consiste en elegir cada hogar con probabilidades proporcionales a sus tamaos. Se considera el estimador T1 = Ingreso medio de los hogares, para estimar el ingreso medio poblacional, y se considera el estimador T2 = Ingreso total de los hogares, para estimar el ingreso total poblacional. Se pide: 1) Especificar el espacio muestral relativo a este procedimiento de muestreo y las probabilidades asociadas a las muestras. Hallar tambin las distribuciones de probabilidad en el muestreo de los estimadores T1 y T2. Cul de ellos es mejor? Razonar la respuesta y cuantificar la ganancia en precisin. 2) Hallar un intervalo de confianza para el ingreso medio al nivel _ = 0,002 basado en el subconjunto de mayor total. Se sabe que F-1 (0,999) = 3, siendo F la funcin de distribucin de una Normal (0,1). Hallar tambin un intervalo de confianza del 95% para el ingreso total basado en el subconjunto de mayor media. Se sabe que F-1 (0,975) = 2, siendo F la funcin de distribucin de una Normal (0,1).

Muestreo estadstico: conceptos, estimadores y su distribucin

33

Como el procedimiento de muestreo es con probabilidades proporcionales a los tamaos Mi de los hogares tenemos que Pi = kMi i = 1, 2, 3, 4 para una constante de proporcionalidad k que se calcula de la forma siguiente: P1 = 3 / 10 4 4 P2 = 2 / 10 = 1 / 5 Pi = kM i Pi = k M i 1 = k u 10 k = 1 / 10 i =1 i =1 P3 = 2 / 10 = 1 / 5 P4 = 3 / 10

En el siguiente cuadro se especifican las muestras, sus probabilidades y los valores de los estimadores para cada muestra.
S(X ) {1,2,3} {4,6} {9,11} P( X ) T1 3 / 10 1/ 5 1/ 5 2 T2 6

5 10 10 20 3 9

{2,2,5} 3 / 10

Las distribuciones de probabilidad de los dos estimadores se calcularn mediante la (X1, ...,Xn) = t) = expresin ya conocida PT( e P(S i ), de la siguiente forma:
( S ( X )) = t } {Si / e i

3 T P (T 1= 2) = P{1,2,3} = 10 P T (T = 5) = P{4,6} = 1 1 5 T1 P T (T = 10) = P{9,11} = 1 1 5 3 P T (T 1= 3) = P{2,2,5} = 10

3 T P (T 2= 6) = P{1,2,3} = 10 P T (T = 10) = P{4,6} = 1 2 5 T2 P T (T = 20) = P{9,11} = 1 2 5 3 P T (T 2= 9) = P{2,2,5} = 10

Una vez conocida la distribucin de probabilidad en el muestreo de los dos estimadores analizaremos si son insesgados o no. Para ello calculamos en primer lugar los valores de la media poblacional y el total poblacional, que son los parmetros que estamos estimando. Se tiene:
X = (1 + 2 + 3 + 4 + 6 + 9 + 11 + 2 + 2 + 5) / 10 = 45 / 10 X = (1 + 2 + 3 + 4 + 6 + 9 + 11 + 2 + 2 + 5) = 45

Ahora, para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores tal y como se indica a continuacin:

34

Muestreo estadstico. Conceptos y problemas resueltos

3 1 1 3 + 5 u + 10 u + 3 u = 4,5 = X 10 5 5 10 3 1 1 3 E (T2 ) = 6 u + 10 u + 20 u + 9 u = 10,5 & X = 45 10 5 5 10 E (T1 ) = 2 u


El estimador T1 es insesgado, pero el estimador T2 es sesgado con sesgo B(T2)=E(T2) < X = 10,5 < 45 = <34,5. Las varianzas de los estimadores son:
3 1 1 3 + (5 < 4,5) 2 u + (10 < 4,5) 2 u + (3 < 4,5) 2 u = 8,65 10 5 5 10 3 1 1 3 V (T2 ) = (6 < 10,5) 2 u + (10 < 10,5) 2 u + (20 < 10,5) 2 u + (9 < 10,5) 2 u = 24,85 10 5 5 10 V (T1 ) = (2 < 4,5) 2 u

Con lo que las desviaciones tpicas valdrn:

m (T1 ) = 8,65 = 2.94 y m (T2 ) = 24,85 = 4.98


Como |B(T2)/m(T2)| = 6.92 > 1/10, el sesgo del estimador T2 no es despreciable, y como T1 es insesgado, la comparacin de estimadores ha de hacerse a travs del error cuadrtico medio. Tenemos:
3 1 1 3 + (5 < 4,5) 2 u + (10 < 4,5) 2 u + (3 < 4,5) 2 u = 8,65 10 5 5 10 2 3 2 1 2 1 2 3 ECM (T2 ) = (6 < 45) u + (10 < 45) u + (20 < 45) u + (9 < 45) u = 1215,1 10 5 5 10 ECM (T1 ) = (2 < 4,5) 2 u

Evidentemente, el mejor estimador es T1, pues su error cuadrtico medio es mucho menor que el de T2. La ganancia en precisin por usar T1 en vez de T2 es: GP=(EMC(T2)/EMC(T1) - 1)100 = (1215,1/8,65-1)100=13946,24% Para hallar un intervalo de confianza para T1 (que es insesgado) basado en la muestra de mayor total {9,11}, suponemos primeramente que la poblacin se distribuye normalmente, en cuyo caso se utiliza como intervalo de confianza el siguiente:
<h m e ,e +h m e ] = [10 < 3 u 2.94, 10 + 3 u 2.94] = [1.17, 18.82] [e _ _

()

()

Si la poblacin no se distribuye normalmente el intervalo para T1 es:


< m e ,e +m e e _ _

()

( ) = 10 <

2.94 0.002

,10 +

2.94 = [<55.74, 75.7] 0.002

Se observa que la longitud del intervalo de confianza cuando no hay normalidad es mucho mayor que en el caso de normalidad, con lo que la estimacin es ms tosca (peor) en el caso de no normalidad. Para hallar un intervalo de confianza para T2 (que es sesgado) basado en la muestra de mayor media {9,11}, realizamos los siguientes clculos:
<h m e <| Be |, e +h e e +| Be |] = [20 < 2 u 4.98 < 34.5, 20 + 2 u 4.98 + 34.5] = [<24.47, 64.47] [e _ _

() ()

() ()

El problema puede automatizarse con Excel como sigue:

Muestreo estadstico: conceptos, estimadores y su distribucin

35

1.7.

Supongamos que las calificaciones de tres jueces deportivos sobre el ejercicio de un gimnasta han sido X={1, 2, 3}. Usando probabilidades iguales se extraen muestras aleatorias de dos calificaciones y se consideran los estimadores por analoga media muestral y varianza muestral. Hallar la distribucin en el muestreo y sus errores para los dos estimadores en los casos siguientes: 1) Muestreo sin reposicin sin tener en cuenta el orden de colocacin de los elementos. 2) Muestreo sin reposicin teniendo en cuenta el orden de colocacin de los elementos. 3) Muestreo con reposicin sin tener en cuenta el orden de colocacin de los elementos. 4) Muestreo con reposicin teniendo en cuenta el orden de colocacin de los elementos. Para muestreo sin reposicin sin tener en cuenta el orden de colocacin de los elementos el nmero de muestras de tamao 2 en el espacio muestral sern las combinaciones sin repeticin de tres elementos tomados de dos en dos: 3 C3,2 = 2 =3 Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante: P_X = P(ui,uj) = P(ui)P(uj/ui)+P(uj)P(ui/uj)=P(ui)P(uj)/(1-P(ui))+P(uj)P(ui)/(1-P(uj))) = (1/32)/(1-1/3) + (1/32)/(1-1/3) = 2(1/32)/(1-1/3) = 1/3 = 0,33333 Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se presentan en la siguiente tabla:
S1_X 1 1 2 S2_X 2 3 3 P_X 1/3 1/3 1/3 MEDIAM 1,5 2 2,5 VARIANZAM 0,25 1 0,25

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores tal y como se indica a continuacin:
E ( MEDIAM ) =

MEDIAM P = 2 = MEDIAP
i =1 i i

E (VARIANZAM ) =

VARIANZA P = 0,5 & 2 / 3 = 0,6666 = VARIANZAP


i =1 i i

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y B(VARIANZAM) = 0,5<0,6666 = <0,16666. A continuacin se calculan las varianzas de los estimadores.

36

Muestreo estadstico. Conceptos y problemas resueltos


3

V ( MEDIAM ) =

(MEDIAM
i =1 3 i =1

< E ( MEDIAM ) ) Pi = 0,16666


2 i

V (VARIANZAM ) =

(VARIANZAM

< E (VARIANZAM ) ) Pi = 0,125


2

Con lo que las desviaciones tpicas valdrn:

m (MEDIAM) = 0,1666 = 0,408, m (VARIANZAM) = 0,000399 = 0,353


Como |B(VARIANZAM)/m(VARIANZAM)| = 0,47 > 1/10, el sesgo del estimador VARIANZAM no es despreciable. Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
ECM (VARIANZAM ) =

(VARIANZAM
i =1

< 2 / 3) Pi = 0,152777
2

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,16666

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la ganancia en precisin es pequea: (0,16666/0,15277-1)100 = 9%. A continuacin se presenta la solucin con Excel.

Muestreo estadstico: conceptos, estimadores y su distribucin

37

Para muestreo sin reposicin teniendo en cuenta el orden de colocacin de los elementos el nmero de muestras de tamao 2 en el espacio muestral sern las variaciones sin repeticin de tres elementos tomados de dos en dos:
3 V3,2 = 2 u 2! = 6

Al tratarse de muestreo aleatorio sin reposicin y probabilidades iguales, las probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante: P_X = P(ui,uj) = P(ui)P(uj/ui) = P(ui)P(uj)/(1-P(ui)) = (1/32)/(1-1/3) = 1/6 = 0,1666 Se observa que las probabilidades de las muestras sern todas iguales a 1/6. Luego estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se presentan en la siguiente tabla:
S1_X 1 1 2 2 3 3 S2_X 2 3 1 3 1 2 P_X 1/6 1/6 1/6 1/6 1/6 1/6 MEDIAM 1,5 2 1,5 2,5 2 2,5 VARIANZAM 0,25 1 0,25 0,25 1 0,25

38

Muestreo estadstico. Conceptos y problemas resueltos

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores tal y como se indica a continuacin:
E ( MEDIAM ) =

MEDIAM P = 2 = MEDIAP
i =1 i i

E (VARIANZAM ) =

VARIANZA P = 0,5 & 2 / 3 = 0,6666 = VARIANZAP


i =1 i i

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y B(VARIANZAM) = 0,5 < 0,6666 = <0,16666. A continuacin se calculan las varianzas de los estimadores.

V ( MEDIAM ) =

(MEDIAM
i =1 6 i =1

< E ( MEDIAM ) ) Pi = 0,16666


2 i

V (VARIANZAM ) =

(VARIANZAM

< E (VARIANZAM ) ) Pi = 0,125


2

Con lo que las desviaciones tpicas valdrn:

m (MEDIAM) = 0,1666 = 0,408, m (VARIANZAM) = 0,000399 = 0,353


Como |B(VARIANZAM)/m(VARIANZAM)| = 0,47 > 1/10, el sesgo del estimador VARIANZAM no es despreciable. Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
ECM (VARIANZAM ) =

(VARIANZAM
i =1

< 2 / 3) Pi = 0,152777
2

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,16666

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la ganancia en precisin es pequea: (0,16666/0,15277-1)100 = 9%. Se observa que cuando se trabaja sin reposicin, el hecho de tener o no en cuenta el orden de colocacin de los elementos en las muestras no interviene a los efectos de clculo de medias, varianzas, sesgos, intervalos de confianza y precisiones de los estimadores. Los clculos pueden implementarse mediante Excel tal y como se indica en las pantallas siguientes:

Muestreo estadstico: conceptos, estimadores y su distribucin

39

Para muestreo con reposicin sin tener en cuenta el orden de colocacin de los elementos el nmero de muestras de tamao dos en el espacio muestral sern las combinaciones con repeticin de tres elementos tomados de dos en dos:
3 + 2 < 1 CR3,2 = 2 =6

Al tratarse de muestreo aleatorio con reposicin y probabilidades iguales, las probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante:

40

Muestreo estadstico. Conceptos y problemas resueltos

P_X = P(ui,uj) =2 P(ui)P(uj) = 2(1/3)2 = 2/9 si i & j P_X = P(ui,ui) =P(ui)2 = (1/3)2 = 1/9 si i = j Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se presentan en la siguiente tabla:
S1_X 1 1 1 2 2 3 S2_X 1 2 3 2 3 3 P_X 1/9 2/9 2/9 1/9 2/9 1/9 MEDIAM 1 1,5 2 2 2,5 3 VARIANZAM 0 0,25 1 0 0,25 0

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores tal y como se indica a continuacin:
E ( MEDIAM ) =

MEDIAM P = 2 = MEDIAP
i =1 i i

E (VARIANZAM ) =

VARIANZA P = 1 / 3 = 0,3333 & 2 / 3 = 0,6666 = VARIANZAP


i =1 i i

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y B(VARIANZAM) = 1/3-2/3 = -1/3 =-0,3333. A continuacin se calculan las varianzas de los estimadores.

V ( MEDIAM ) =

(MEDIAM
i =1 6 i =1

< E ( MEDIAM ) ) Pi = 0,3333


2 i

V (VARIANZAM ) =

(VARIANZAM

< E (VARIANZAM ) ) Pi = 0,13888


2

Con lo que las desviaciones tpicas valdrn:

m (MEDIAM) = 0,3333 = 0,577, m (VARIANZAM) = 0,13888 = 0,372


Como |B(VARIANZAM)/m(VARIANZAM)| = 0,894 > 1/10 el sesgo del estimador VARIANZAM no es despreciable. Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
ECM (VARIANZAM ) =

(VARIANZAM
i =1

< 2 / 3) Pi = 0,25
2

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,3333

Muestreo estadstico: conceptos, estimadores y su distribucin

41

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la ganancia en precisin es (0,3333/0,25-1)*100 = 33,32%. Hay que subrayar que la ganancia en precisin es ahora mayor que en el mismo caso para muestreo sin reposicin, debido a la mayor precisin en general del muestreo sin reposicin. Los clculos en Excel se muestran a continuacin.

42

Muestreo estadstico. Conceptos y problemas resueltos

Para muestreo con reposicin teniendo en cuenta el orden de colocacin de los elementos el nmero de muestras de tamao 2 en el espacio muestral sern las variaciones con repeticin de tres elementos tomados de dos en dos: VR3,2 = 32 = 9 Al tratarse de muestreo aleatorio con reposicin y probabilidades iguales, las probabilidades iniciales de seleccin de los elementos de la poblacin para la muestra valdrn P(ui) = 1/3, i = 1, ..., 3 y la probabilidad de cualquier muestra puede hallarse mediante: P_X = P(ui,uj) = P(ui)P(uj) = (1/3)2 = 1/9 Se observa que las probabilidades de las muestras sern todas iguales a 1/3. Luego estamos ante un mtodo de seleccin con probabilidades iguales y muestras equiprobables. El espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo de los estimadores media muestral (MEDIAM) y varianza muestral (VARIANZAM) se presentan en la siguiente tabla:
S1_X 1 1 1 2 2 2 3 3 3 S2_X 1 2 3 1 2 3 1 2 3 P_X 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 MEDIAM 1 1,5 2 1,5 2 2,5 2 2,5 3 VARIANZAM 0 0,25 1 0,25 0 0,25 1 0,25 0

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores tal y como se indica a continuacin:
E ( MEDIAM ) =

MEDIAM P = 2 = MEDIAP
i =1 i i

E (VARIANZAM ) =

VARIANZA P = 1 / 3 = 0,3333 & 2 / 3 = 0,6666 = VARIANZAP


i =1 i i

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP y B(VARIANZAM) = 1/3 < 2/3 = <1/3 = <0,3333. A continuacin se calculan las varianzas de los estimadores.

V ( MEDIAM ) =

(MEDIAM
i =1 9 i =1

< E ( MEDIAM ) ) Pi = 0,3333


2 i

V (VARIANZAM ) =

(VARIANZAM

< E (VARIANZAM ) ) Pi = 0,13888


2

Con lo que las desviaciones tpicas valdrn:

m (MEDIAM) = 0,3333 = 0,577, m (VARIANZAM) = 0,13888 = 0,372


Como |B(VARIANZAM)/m(VARIANZAM)| = 0,894 > 1/10, el sesgo del estimador VARIANZAM no es despreciable.

Muestreo estadstico: conceptos, estimadores y su distribucin

43

Para hallar el error de muestreo de MEDIAM y VARIANZAM vemos que el segundo estimador es sesgado con sesgo no despreciable y el primero es insesgado. La medicin del error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
ECM (VARIANZAM ) =

(VARIANZAM
i =1

< 2 / 3) Pi = 0,25
2

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,3333

Los clculos se automatizan con Excel como sigue:

44

Muestreo estadstico. Conceptos y problemas resueltos

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM para estimar la media poblacional por tener menor error cuadrtico medio. Se observa que la ganancia en precisin es (0,3333/0,25 < 1)100 = 33,32%. Hay que subrayar que la ganancia en precisin es ahora mayor que en el mismo caso para muestreo sin reposicin, lo que es debido a la mayor precisin en general del muestreo sin reposicin. Se observa que cuando se trabaja con reposicin, el hecho de tener o no en cuenta el orden de colocacin de los elementos en las muestras no interviene a los efectos de clculo de medias, varianzas, sesgos, intervalos de confianza y precisiones de los estimadores. Ya vimos que esto mismo ocurra cuando se trabajaba sin reposicin. Si comparamos los mtodos con reposicin con los mtodos sin reposicin vemos que los errores de muestreo siempre son mayores con reposicin. Para el estimador MEDIAM la ganancia en precisin por muestrear sin reposicin se cuantifica en (0,333/0,166 < 1)100 = 100%, ya que se duplica la precisin. Para el estimador VARIANZAM la ganancia en precisin por muestrear sin reposicin se cuantifica en (0,25/0,15277 < 1)100 = 63,63%. La ganancia en precisin para VARIANZAM es menor que para MEDIAM, porque habamos visto que VARIANZAM es ms preciso que media M y los estimadores ms precisos son los que menos precisin pierden al considerar muestreo con reposicin.

1.8.

En una prueba de patinaje artstico los 10 jueces del jurado calificaron a un patinador con tres cincos, cuatro seises y tres sietes. Usando probabilidades iguales se extraen muestras aleatorias de dos calificaciones sin reposicin y teniendo en cuenta el orden de colocacin de los elementos. Se consideran los estimadores por analoga media muestral, varianza muestral y recorrido para estimar la calificacin media y su dispersin (por dos vas). Hallar la distribucin en el muestreo y sus errores para los tres estimadores. Las probabilidades iniciales de seleccin sern las siguientes:

Xi Pi

5 6 7 3 / 10 4 / 10 3 / 10

Para muestreo sin reposicin teniendo en cuenta el orden de colocacin de los elementos el nmero de muestras de tamao 2 en el espacio muestral sern las variaciones sin repeticin de 10 elementos tomados de dos en dos:
3 V3,2 = 2 u 2! = 6

Al tratarse de muestreo aleatorio sin reposicin teniendo en cuenta el orden, la probabilidad de cualquier muestra puede hallarse mediante: P_X = P(ui,uj) = P(ui)P(uj/ui) = P(ui)P(uj)/(1-P(ui)) = PiPj/(1-Pi) El espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo de los estimadores media muestral (MEDIAM), varianza muestral (VARIANZAM) y recorrido muestral RM se presentan en la siguiente tabla:

Muestreo estadstico: conceptos, estimadores y su distribucin

45

S1_X S2_X P1 P2 P_X MEDIAM VARIANZAM RM 5 6 0,3 0,4 0,171=0,3*0,4/(1-0,3) 5,5 0,25 1 5 7 0,3 0,3 0,128=0,3*0,3/(1-0,3) 6 1 2 6 7 0,4 0,3 0,2=0,4*0,3/(1-0,4) 6,5 0,25 1 6 5 0,4 0,3 0,2=0,4*0,3/(1-0,4) 5,5 0,25 1 7 5 0,3 0,3 0,128=0,3*0,3/(1-0,3) 6 1 2 7 6 0,3 0,4 0,171=0,3*0,4/(1-0,3) 6,5 0,25 1

Para comprobar la insesgadez, hallamos la esperanza matemtica de los estimadores tal y como se indica a continuacin:
E ( MEDIAM ) = MEDIAM i Pi = 6 = MEDIAP
i =1 6

E (VARIANZAM ) = VARIANZAi Pi = 0,442 & 0,6 = VARIANZAP


i =1

E ( RM ) = RM i Pi = 1,257 & 2 = RP
i =1

Para calcular los sesgos se observa que MEDIAM es insesgado para MEDIAP, B(VARIANZAM) = 0,442-0,6 = <0,157, y B(RM) = 1,257 < 2 = <0,743. A continuacin se calculan las varianzas de los estimadores.

V ( MEDIAM ) = (MEDIAM i < E ( MEDIAM ) ) Pi = 0,185


2 i =1

V (VARIANZAM ) = (VARIANZAM i < E (VARIANZAM ) ) Pi = 0,107


2 i =1

V ( RM ) = (RM i < E ( RM ) ) Pi = 0,191


2 i =1

Con lo que las desviaciones tpicas valdrn:

m (MEDIAM) = 0,1666 = 0,408, m (VARIANZAM) = 0,000399 = 0,353


Como |B(VARIANZAM)/m(VARIANZAM)| = 0,47 > 1/10, el sesgo del estimador VARIANZAM es no despreciable. Como |B(RM)/m(RM)| = 1,7 > 1/10, el sesgo del estimador RM no es despreciable. Para hallar el error de muestreo de MEDIAM, VARIANZAM y RM vemos que los dos ltimos estimadores son sesgados con sesgo no despreciable y el primero es insesgado. La medicin del error debe hacerse a travs de los errores cuadrticos medios. Tenemos:
ECM ( MEDIAM ) = V ( MEDIAM ) = 0,185 ECM (VARIANZAM ) = (VARIANZAM i < 0,6 ) Pi = 0,132
2 i =1 6

ECM ( MEDIAM ) = V ( MEDIAM ) = 0,742

46

Muestreo estadstico. Conceptos y problemas resueltos

Como el estimador MEDIAM es insesgado, su varianza coincide con su error cuadrtico medio, luego su precisin se mide a travs de la varianza. De esta forma, el estimador VARIANZAM para estimar la varianza poblacional es ms preciso que el estimador MEDIAM para estimar la media poblacional y que el estimador RM para estimar el recorrido poblacional por tener menor error cuadrtico medio. Los clculos pueden implementarse mediante Excel tal y como se indica en las pantallas siguientes:

Muestreo estadstico: conceptos, estimadores y su distribucin

47

EJERCICIOS PROPUESTOS
1.1.
U 1 , U 2 , U 3 } consideramos el siguiente proceso de seleccin de muestras Para la poblacin U = { de tamao 2. Se extrae una primera unidad con probabilidades iguales de seleccin, y si sta resulta ser U1, se extrae la segunda unidad entre las dos restantes tambin con probabilidades iguales; pero si la primera no es U1, la segunda se extrae de las tres que componen la poblacin asignando doble probabilidad a U1 que a cada una de las otras dos. Hallar el espacio muestral y las probabilidades asociadas a las muestras para este procedimiento de muestreo. Si consideramos la variable X que toma los valores Xi ={1,1,0} i = 1, 2, 3 en los tres elementos = k ( X + X ) , hallar su de la poblacin y definimos el estimador para el total poblacional X 1 2 sesgo, su varianza y el valor de k para que sea insesgado.
Para medir la variable X = nivel de precipitacin atmosfrica en una determinada regin disponemos de un marco de 4 zonas climticas de la misma cuyos niveles de precipitacin actual son de 6, 4, 3 y 8 decenas de litros por metro cuadrado, siendo sus probabilidades iniciales de seleccin en el muestreo 1/6, 1/3, 1/3 y 1/6, respectivamente. Se trata de estimar en decenas de litros por metro cuadrado el nivel actual medio de precipitacin atmosfrica en la regin extrayendo muestras de la variable X con tamao 2 sin reposicin y sin tener en cuenta el orden de colocacin de sus elementos. Para ello se consideran los estimadores alternativos MEDIA ARITMTICA, MEDIA GEOMTRICA, MEDIA CUADRTICA y MEDIA ARMNICA. Se pide lo siguiente: 1) Especificar el espacio muestral definido por este procedimiento de muestreo S(X), las probabilidades asociadas a las muestas P(S) y la distribucin en el muestreo de los cuatro estimadores analizando su precisin. Cul de ellos es mejor? Razonar la respuesta y cuantificar las ganancias en precisin. 2) Hallar intervalos de confianza para la media segn los cuatro estimadores basados en la muestra de mayor probabilidad para un nivel de confianza del 2 por mil ( _=0,002). Como dato se sabe que F-1(0.999)= 3, siendo F la funcin de distribucin de la normal (0,1). Comentar los resultados.

1.2.

1.3.

Para la poblacin A = { A1 , A2 , A3 , A4 , A5 } consideramos el siguiente proceso de seleccin de muestras de tamao 3. De una urna con tres bolas numeradas del 1 al 3 se extraen al azar y sin reposicin dos bolas. A continuacin, de otra urna con dos bolas numeradas con el 4 y el 5 se extrae una bola. Se pide: 1) Espacio muestral asociado a este experimento de muestreo y probabilidades de las = suma de los subndices de unidades muestras. Consideramos el estimador por analoga e de las muestras para estimar la caracterstica poblacional e = suma de los subndices de las unidades de poblacin. Calcular la precisin del estimador y hallar un intervalo de confianza al 95%. 2) Se considera el estimador por analoga e = Media de los subndices de unidades de las = Media de los subndices de las muestras para estimar la caracterstica poblacional e unidades de poblacin. Calcular la precisin de este estimador y hallar un intervalo de confianza al 95%. Qu estimacin es mejor? Cuantificar la ganancia en precisin.

48

Muestreo estadstico. Conceptos y problemas resueltos

1.4.

Consideramos una poblacin de 3 unidades {u1 , u 2 , u 3 } cuyas probabilidades iniciales de seleccin son iguales a 1/3. Se extraen muestras de tamao 2 con reposicin sin tener en cuenta el orden de colocacin de sus elementos. Se pide: 1) Espacio muestral y probabilidad asociadas a las muestras para este tipo de muestreo. 2) Se estima por analoga el parmetro poblacional e = n de unidades distintas en la poblacin mediante el estimador e$ = n de unidades distintas en la muestra Hallar la distribucin en el muestreo del estimador e$ de e . 3) Analizar la precisin de e$ para los valores e = 1, e = 2, e = 3 del parmetro poblacional e. 4) Se estima el parmetro poblacional e = N medio de unidades distintas en la poblacin mediante el estimador por analoga e = N medio de unidades distintas en la muestra. Hallar la distribucin en el muestreo de e y analizar su precisin para los valores e = 1 y e = 2 del parmetro poblacional e . 5) Cul de las dos estimaciones anteriores es mejor? Hallar intervalos de confianza para ambos estimadores e$ y e al 95% y comparar sus precisiones.

1.5.

Para la poblacin A = {A1 , A2 , L , A12 } consideramos el siguiente proceso de seleccin de muestras 1,2,3,4} y siendo b este nmero se de tamao 3. Se selecciona un entero al azar en el conjunto { forma la muestra {Ab , Ab + 4 , L , Ab +8 } . Considerando la variable Xi=X(Ai)=i se pide la distribucin, esperanza y varianza de los estimadores T1=Mx(Xi) y T2=2(Xi)/n 1. Cul de los dos estimadores es ms preciso? Realizar estimaciones por intervalos al 95% basadas en las muestras de mayor valor de los estimadores y comentar los resultados. En una poblacin con N = 3 unidades Ui (i = 1, 2, 3), la variable Ti medida sobre cada unidad toma los valores (1, 3, 5). Se considera un proceso de muestreo sin reposicin con probabilidades iniciales de seleccin Pi = (1/5, 2/5, 2/5) y tamao muestral n = 2 sin tener en cuenta el orden de colocacin de las unidades en las muestras. Se pide: 1) Distribuciones en el muestreo de los estimadores X=Ti+Tj, Y=Min(Ti,Tj), Z= (Ti+Tj)/2. Si con X estimamos el total poblacional, con Y el menor valor de la poblacin y con Z la media poblacional, cul de los tres estimadores es mejor? Razonar la respuesta y cuantificar las ganancias en precisin. 2) Hallar intervalos de confianza para los estimadores X, Y y Z basados en la muestra de mayor probabilidad para un nivel de confianza del 2 por mil (F-1(0.999)=3 con F N(0,1)). Comentar los resultados.

1.6.

1.7.

U 1 , U 2 , U 3 } se mide la variable X sobre sus unidades y se obtiene Para la poblacin U = { X={3, 2, 4}. Se extrae una muestra de tamao 2 mediante el siguiente proceso de seleccin. Se extraen dos bolas de una urna que tiene ocho (cuatro marcadas con un 1, tres con un 2 y una con un 3) y si sus nmeros son (i,j) se extraen para la muestra las unidades (Xi,Xj). Hallar el espacio muestral, las probabilidades asociadas a las muestras y la distribucin en el muestreo, esperanza y varianza del estimador por analoga media muestral. Resolver el problema para muestreo con y sin reposicin.

CAPTULO MTODOS GENERALES DE SELECCIN DE MUESTRAS. ESTIMACIN Y ERRORES

OBJETIVOS
1. Distinguir entre muestreo de unidades elementales y muestreo de unidades compuestas. 2. Distinguir claramente los conceptos de muestreo con probabilidades iguales y muestreo con probabilidades desiguales. 3. Distinguir entre muestreo con reposicin y muestreo sin reposicin. 4. Comprender cmo se forman los estimadores en el proceso de estimacin puntual. 5. Comprender el concepto de factor de elevacin. 6. Obtener el estimador lineal insesgado general para el caso de seleccin con reposicin y probabilidades desiguales: Estimador de Hansen y Hurwitz. 7. Obtener la varianza y su estimacin para el estimador de Hansen y Hurwitz. 8. Analizar los mtodos especiales de seleccin con reposicin y probabilidades desiguales: Mtodo del tamao acumulativo y mtodo de Lahiri. 9. Obtener el estimador lineal insesgado general para el caso de seleccin sin reposicin y probabilidades desiguales: Estimador de Horvitz y Thompson. 10. Obtener la varianza y la estimacin de la varianza para el estimador de Horvitz y Thompson. 11. Obtener el estimador alternativo de Yates y Grundy para la varianza. 12. Analizar los mtodos especiales de seleccin con reposicin y probabilidades desiguales: Modelos de Ikeda, Mitzumo, Brewer, Durbin, Sampford y Murthy. 13. Analizar el muestreo con probabilidades gradualmente variables: Estimador de Snchez Crespo y Gabeiras, error y estimacin del error. 14. Obtener muestras aleatorias, especialmente mediante el mtodo de Montecarlo.

50

Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Seleccin con y sin reposicin. Probabilidades iguales y desiguales. 2. Estimacin puntual y formacin general de estimadores. 3. Muestreo con reposicin y probabilidades desiguales. Estimador de Hansen Hurwitz. 4. Muestreo con reposicin y probabilidades proporcionales a los tamaos. Mtodos especiales de seleccin. 5. Muestreo sin reposicin y probabilidades desiguales. Estimador de Horvitz y Thompson. 6. Muestreo sin reposicin y probabilidades proporcionales a los tamaos. Mtodos especiales de seleccin. 7. Mtodo de Montecarlo 8. Problemas resueltos 9. Ejercicios propuestos

Muestreo estadstico: conceptos, estimadores y su distribucin

51

SELECCIN CON Y SIN REPOSICIN. PROBABILIDADES IGUALES Y DESIGUALES


Las formas bsicas de seleccin de la muestra se clasifican atendiendo a los siguientes criterios: 1. Atendiendo a las probabilidades de seleccin 1.1. Con probabilidades iguales: Todas las unidades de la poblacin tienen la misma probabilidad de ser seleccionadas en cada extraccin. 1.2. Con probabilidades desiguales: Al menos dos unidades tienen distintas probabilidades de seleccin en cierta extraccin. 2. Atendiendo a la mecnica de seleccin 2.1. Muestreo con reposicin: Cada unidad que es extrada para formar parte de la muestra en una extraccin se repone a la poblacin antes de realizar la siguiente extraccin; es decir, la estructura poblacional permanece invariante. 2.2. Muestreo sin reposicin: Cada unidad que es extrada para formar parte de la muestra en una extraccin no se repone a la poblacin antes de realizar la siguiente extraccin, por lo que una unidad podr aparecer en la muestra a lo sumo una vez y la estructura poblacional va cambiando de una extraccin a otra. Combinando estos cuatro tipos de muestreo resulta: Muestreo con reposicin y probabilidades iguales Muestreo sin reposicin y probabilidades iguales Muestreo con reposicin y probabilidades desiguales Muestreo sin reposicin y probabilidades desiguales

ESTIMACIN PUNTUAL Y FORMACIN GENERAL DE ESTIMADORES


Supongamos que tenemos definida una caracterstica X en la poblacin U = {U1, U2, ..., UN} que toma el valor numrico Xi sobre la unidad Ui i = 1, 2, ..., N, dando lugar al conjunto de valores {X1, X2, ..., XN}. Consideramos ahora una cierta funcin e de los N valores Xi, que suele denominarse parmetro poblacional. Seleccionamos una muestra s = {u1, u2, ..., un} de U mediante un procedimiento de muestreo dado, y consideramos los valores s(X) = {X1, X2, ... , Xn} que toma la caracterstica X en estudio sobre los elementos de la muestra. A partir de estos valores estimamos puntualmente el parmetro poblacional e mediante la expresin e = e (s(X))= e (X1, ..., Xn), basada en los valores Xi i = 1, 2, ..., n, que toma la caracterstica X sobre las unidades de la muestra s.
X (X 1 L X N ) A U = {U 1 LU N }

X s = {u1 L u n } A s( X ) = (X 1 L X n )

52

Muestreo estadstico. Conceptos y problemas resueltos

La funcin e que asocia a cada muestra s el valor numrico e (s(X)) = e (X1, ..., Xn), se denomina estimador del parmetro poblacional e. A los valores e (s(X)) para cada s del espacio muestral se los denomina estimaciones puntuales. Por lo tanto podemos formalizar el concepto de estimador e$ para el parmetro poblacional e definindolo mediante la aplicacin medible:

e$: S ( X ) R n A R

(X

L X n ) A e$( X 1 L X n ) = t

Ya tenemos definido el estimador como un estadstico funcin de los valores que toma la caracterstica X sobre los elementos del espacio muestral (muestras). Como ejemplos tenemos los estimadores total muestral y media muestral que estiman el total y la media poblacionales:
: S (X ) R n A R e 1 ( X 1 L X n ) A e1 ( X 1 L X n ) = X 1 + L + X n = X
: S (X ) R n A R e 2

( X 1 L X n ) A e2 ( X 1 L X n ) =

X1 + L + X n =X n

Entre los parmetros poblacionales e (funcin de los N valores poblacionales Xi) ms comunes a estimar, tenemos el total poblacional y la media poblacional para la caracterstica X, definidos de la forma siguiente: Total poblacional: X = e(X1, ..., XN) = X i
i =1 N

Media poblacional: X = e(X1, ..., XN) =

X 1 = N N

X =
i =1 i i =1

Xi N

Hasta ahora hemos supuesto que la caracterstica X definida sobre los elementos de la poblacin es cuantitativa, es decir, cuantificable numricamente. Sin embargo, tambin se pueden definir caractersticas cualitativas sobre los elementos de la poblacin, como, por ejemplo, su pertenencia o no a una determinada clase A. Si para cada unidad ui i = 1, 2, ..., N de la poblacin definimos la caracterstica Ai, que toma valor 1 si la unidad ui pertenece a la clase A, y que toma valor 0 si la unidad ui no pertenece a la clase A, podemos definir el total de elementos de la poblacin que pertenecen a la clase A (total de clase) y la proporcin de elementos de la poblacin que pertenecen a la clase A (proporcin de clase) de la forma siguiente: Total de clase: A = e(A1, ..., AN) = Ai
i =1 N

Proporcin de clase: P = e(A1, ..., AN) =

A 1 = N N

i =1

Ai =

N
i =1

Ai

Analizados ya los cuatro parmetros poblacionales ms tpicos a estimar, vemos que, en general, un parmetro poblacional e puede expresarse como una suma de elementos Yi = f(Xi) funcin de los valores que la caracterstica cuantitativa X o cualitativa A considerada toma sobre los elementos de la poblacin. De esta forma, podemos escribir:

Muestreo estadstico: conceptos, estimadores y su distribucin


N N

53

e = Yi = f ( X i )
i =1 i =1

Yi = Yi = en cuyo caso tenemos: Yi = Yi =

f ( X i ) = X i para el total poblacional X Xi para la media poblacional X N f ( Ai ) = Ai para el total de clase A f (X i ) = f ( Ai ) = Ai para la proporcin de clase P N

Ahora surge el problema de analizar la forma de los estimadores puntuales ptimos e = (X1, ..., Xn) para estos parmetros poblacionales tpicos. Resulta que las mejores propiedades e
= w Y . Los valores ti se suelen presentarlas los estimadores lineales insesgados de la forma e i i
i =1 n

denominan pesos o factores de elevacin, ya que so los nmeros por los que hay que multiplicar los valores muestrales para obtener los valores poblacionales. Concretamente, para muestreo sin reposicin, el estimador ptimo es el de Horvitz y Thompson eHT =

/
i =1

Yi
i

, donde /i es la probabilidad que tiene la unidad ui de la poblacin de

pertenecer a la muestra. Se observa que los pesos o factores de elevacin son en este caso w i = 1 . /i Para muestreo con reposicin el estimador ptimo es el de Hansen y Hurwitz
= e HH
i =1 n

Yi , donde Pi es la probabilidad de seleccionar la unidad ui de la poblacin para nPi

factores de elevacin son, en este caso, w i = 1 .


nPi

la muestra (probabilidad unitaria de seleccin de la unidad ui ). Se observa que los pesos o

Existen justificaciones para considerar que el parmetro poblacional e = estimarse convenientemente mediante el estimador e$ =
n i i

Y
i =1

puede

w Y , entre las que podemos citar:


i =1

Todas las mediciones de la variable en estudio sobre las unidades de la muestra intervienen en la formacin del estimador. La importancia de la aportacin al estimador de la unidad muestral ui puede controlarse mediante el coeficiente de ponderacin wi o factor de elevacin. Cuando wi = 1, todas las unidades muestrales intervienen de igual forma en la formacin del estimador. Los coeficientes wi pueden depender, entre otros factores, del tamao de las unidades muestrales (cuando son compuestas), del orden de colocacin de las mismas en la muestra, y sobre todo de la probabilidad que tiene la unidad ui de pertenecer a la muestra segn el mtodo de muestreo considerado. Las funciones lineales son las ms sencillas de manejar matemticamente.

54

Muestreo estadstico. Conceptos y problemas resueltos

MUESTREO CON REPOSICIN Y PROBABILIDADES DESIGUALES: ESTIMADOR DE HANSEN HURWITZ


Consideremos una poblacin de tamao N, con unidades {u1 , u 2 , L , u N } . Seleccionamos con reposicin una muestra (~ x ) de tamao n. Ya sabemos que en este esquema de seleccin cada unidad ui de la poblacin puede pertenecer a la muestra (~ x ) de tamao n desde 0 a n veces ya que al seleccionar una unidad para la muestra, sta se devuelve a la poblacin antes de realizar la siguiente extraccin. La probabilidad de una muestra cualquiera de tamao n seguir el modelo multinomial (conjunta de n binomiales ei), ya que al haber reposicin puede seleccionarse para la muestra cada unidad ui de la poblacin ti veces con i = 1,2,...,N y

t
i =1

= n, con lo que:

P (~ x ) = P(u1 , L u1 , u 2 , L , u 2 , L , u N , L , u N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N ) 1 4 2 4 3 1 4 24 3 1 4 24 3 t1 veces t2 veces t N veces =


N n! P1t P2t L PNt n! = (t1 + t 2 + L + t N )! t i = n t1 !t 2 !L t N ! i =1
1 2 N

El estimador lineal insesgado ptimo en el muestreo con reposicin y probabilidades desiguales para el parmetro poblacional e = Yi es el estimador de Hansen y Hurwitz:
i =1 N

= tY = e ii HH
i =1 i =1

n Y 1 Yi = i nPi i =1 nP i

Al particularizar el estimador de Hansen y Hurwitz para los distintos parmetros poblacionales, tenemos los siguientes estimadores: Total A
= e = X = X i Yi = X i X HH
i =1
i =1

Xi nPi

Media A Total de clase A

e = X =
i =1 N

Xi X Yi = i X HH N N

Xi 1 = N = N i =1 nP i
n

nP
i =1

Xi

e = A = Ai Yi = Ai
i =1

n Ai = A HH i =1 nP i

ProporcinA

A A e = P = i Yi = i N i =1 N
N

P HH

Ai 1 = N = N i =1 nP i
n

nP
i =1

Ai

Varianza del estimador de Hansen y Hurwitz


2 N 1 N N Yi Y j Yi 1 N Yi 2 )= 1 Pi Pj = < < V (e e P e < = P i n HH n i =1 Pj i i =1 Pi n i =1 j >i Pi 2 2

Muestreo estadstico: conceptos, estimadores y su distribucin

55

Estimacin de la varianza del estimador de Hansen y Hurwitz


)= (e V HH 1 n Yi n(n < 1) i =1 P i
2 2 n Yi 1 2 = P < e HH <ne HH n(n < 1) i =1 i

SELECCIN CON REPOSICIN Y PROBABILIDADES PROPORCIONALES AL TAMAO: MTODOS ESPECIALES DE SELECCIN Mtodo de seleccin del tamao acumulativo o modelo polinomial
Sea Mi un entero positivo asociado a la unidad ui que denominamos tamao de ui para i = 1, 2, ..., N (Mi puede ser el nmero de unidades elementales de la unidad compuesta ui o una ponderacin o medida de la importancia que concedemos a la seleccin de la unidad ui para la muestra). A continuacin se expone un mtodo prctico que permite seleccionar muestras con reposicin de modo que en cada extraccin la unidad ui tiene probabilidad Pi proporcional a su tamao Mi . Sea M = M i . Consideramos el intervalo de nmeros enteros [1, M] y lo dividimos en N subintervalos Ii cada uno de ellos con Mi unidades, tal y como se indica en el cuadro siguiente:
Subintervalos I 1 = [1, M 1 ] I 2 = [ M 1 + 1,M 1 + M 2 ] I 3 = [ M 1 + M 2 + 1,M 1 + M 2 + M 3 ] M N N <1 I N = [ M i + 1, M i ] i =1 i =1 1 2 3
M

i =1

Unidades Tamaos u1 u2 u3 M uN M1 M2 M3 M MN

Ahora elegimos un entero b D [1,M] aleatoriamente y con probabilidades iguales y seleccionamos como primera unidad de la muestra la unidad u i tal que b D Ii. Repetimos este proceso n veces hasta obtener una muestra de tamao n, de modo que para cualquiera de las n extracciones se cumple: M P(u i ) = P(b D I i ) = i = Pi M El procedimiento de seleccin es con reposicin, pues el entero b D [1,M] elegido aleatoriamente puede caer varias veces dentro del mismo intervalo Ii, con lo que la unidad ui estar varias veces en la muestra. Tambin hemos visto que el procedimiento de seleccin se realiza en cada extraccin con probabilidades proporcionales a los tamaos, ya que Pi=Mi/M. Este mtodo tambin permite obtener muestras sin reposicin. Basta no tener en cuenta la obtencin de unidades repetidas y seguir seleccionando hasta acompletar el tamao de muestra requerido. Por lo tanto, es un mtodo general de seleccin de muestras.

56

Muestreo estadstico. Conceptos y problemas resueltos

Este mtodo tambin permite extraer una muestrea con probabilidades desiguales no necesariamente proporcionales a sus tamaos. Basta formar un rango acumulativo del los Pi y extraer una muestra de nmeros aleatorios uniformes en (0,1). Es decir, basta montar un cuadro como el anterior donde los intervalos acumulativos Ii se formaran ahora con los Pi = Mi/M, en vez de con los Mi. Y en vez de obtener nmeros aleatorios entre 1 y M, se obtendran entre 0 y 1.

Mtodo de seleccin de Lahiri


Una variante que abrevia el mtodo del tamao acumulativo la constituye el mtodo de Lahiri, que permite tambin seleccionar muestras con reposicin y probabilidades proporcionales a los tamaos. Sea M0 un nmero entero mayor o igual que todos los Mi, por ejemplo, M 0 = Max { ( M i ) . Elegimos un par de nmeros aleatorios (i, j) tales que 1) i ) N y 1) j ) M0.
i =1, 2 ,..., N

Si j ) Mi, la unidad seleccionada para la muestra es la ui. Si j > Mi se repite la seleccin del par de nmeros aleatorios (i, j) tales que 1) i ) N y 1) j ) M0 tantas veces como sea necesario hasta que j ) Mi. Este mtodo tambin permite obtener muestras sin reposicin. Basta no tener en cuenta la obtencin de unidades repetidas y seguir seleccionando hasta completar el tamao de muestra requerido. Por lo tanto, es un mtodo general de seleccin de muestras.

MUESTREO SIN REPOSICIN Y PROBABILIDADES DESIGUALES: ESTIMADOR DE HORVITZ THOMPSON


Decimos que un procedimiento aleatorio de muestreo es sin reposicin cuando todas las muestras que tienen algn elemento repetido son imposibles. Las unidades seleccionadas no se reponen a la poblacin para seleccionar la siguiente unidad de la muestra, con lo que las muestras resultantes tienen todos sus elementos distintos. Decimos que un procedimiento aleatorio de muestreo es con probabilidades iguales cuando todas las unidades de la poblacin ui tienen la misma probabilidad de ser elegidas para la muestra en una determinada extraccin. En caso de que no sea la misma estaremos ante muestreo con probabilidades desiguales. Tanto el muestreo con reposicin como el muestreo sin reposicin pueden ser con probabilidades iguales o desiguales. En el caso de muestreo sin reposicin y probabilidades desiguales, el estimador lineal insesgado para el parmetro poblacional e = Yi es el estimador de Horvitz y Thompson:
i =1 N

e$HT = wY i i =
i =1 i =1

/i

Yi =
i =1

/i

Yi

donde /i es la probabilidad de que la unidad i de la poblacin pertenezca a la muestra. Al particularizar el estimador de Horvitz y Thompson para los distintos parmetros poblacionales, tenemos los siguientes estimadores:

Muestreo estadstico: conceptos, estimadores y su distribucin


n

57

Total A Media A Total de clase A ProporcinA

e = X = X i Yi = X i X HT =
i =1

i =1

/i
Xi
i

Xi

e = X =
i =1 N

Xi X 1 Yi = i X HT = N N N
n

/
i =1

= Ai e = A = Ai Yi = Ai A HT i =1 / i i =1

e = P = i Yi =

A i =1 N
N

A i = 1 P HT N N

/
i =1

Ai
i

Varianza del estimador de Horvitz y Thompson

= Ve HT
i =1

( )

Yi 2

/i

(1 < / i ) + 2 Yi
N N i =1 j >i

Yj

/i / j

(/

ij

< / i/ j )

donde /i es la probabilidad de que la unidad i de la poblacin pertenezca a la muestra y /ij es la probabilidad de que el par de unidades de la poblacin (i,j) pertenezcan a la muestra. Estimacin de la varianza del estimador de Horvitz y Thompson
2 n n n Y Y j (/ ij < / i ) = Yi (1 < / ) + 2 e V 2 i i HT

( )

i =1

/i

i =1 j >i

/i / j

/ ij

Estimador de la varianza de Yates y Grundy para el estimador de Horvitz y Thompson

e V HT

( )

Y Y j (/ i/ j < / ij ) = i < /j / ij i =1 j >i / i


n n 2

Todas las frmulas para estimadores y errores vistas hasta ahora para el caso general sin reposicin con probabilidades desiguales son vlidas para el caso particular de probabilidades iguales sin reposicin haciendo las siguientes sustituciones:

/i =

n(n < 1) n , / ij = N N ( N < 1)

Se observa que cualquier mtodo de seleccin sin reposicin queda perfectamente definido al conocer /i y/ij ya que los estimadores y sus errores dependen slo de estos valores.

SELECCIN SIN REPOSICIN Y PROBABILIDADES PROPORCIONALES AL TAMAO: MTODOS ESPECIALES DE SELECCIN Estimador de Horvitz y Thompson con probabilidades proporcionales al tamao
Sea Mi el entero positivo asociado a la unidad compuesta Ui i = 1,,N que representa su tamao (nmero de unidades elementales que contiene). En la prctica las unidades de muestreo suelen ser conglomerados, aunque a veces este modelo tambin suele utilizarse con unidades de muestreo simples, en cuyo caso los Mi son ponderaciones utilizadas para dar un mayor peso o importancia a determinadas unidades muestrales.

58

Muestreo estadstico. Conceptos y problemas resueltos

Mediante este modelo se selecciona sin reposicin de la poblacin para la muestra la unidad compuesta Ui de tamao Mi. Como se trata del modelo clsico de seleccin sin reposicin, se procede a retirar de la poblacin las Mi unidades elementales que componen la unidad de muestreo compuesta Ui antes de proceder a la seleccin para la muestra de la siguiente unidad de muestreo compuesta. Cuando se realiza la siguiente seleccin ya faltan de la poblacin Mi unidades elementales. Se supone que en la poblacin hay N unidades de muestreo compuestas que contienen un total de M unidades elementales, es decir:

M = Mi
i =1

Este modelo clsico de seleccin de la muestra sin reposicin es equivalente a considerar un modelo de urna generalizado consistente en introducir en una urna M bolas que representan las unidades elementales de la poblacin y que se clasifican en N grupos distinguibles, cada uno de los cuales tiene las Mi bolas correspondientes al tamao de la unidad compuesta Ui, de tal forma que cada unidad compuesta de muestreo Ui queda representada en la urna por Mi bolas distinguibles. Si en una extraccin se obtiene una bola que representa una unidad elemental del grupo de la unidad compuesta Ui, se procede a retirar de la urna las Mi bolas correspondientes a todas las unidades elementales de Ui antes de realizar la siguiente seleccin. UN U3

MN bolas ..... M3 bolas

U1 M1 bolas

U2 M2 bolas

Segn este modelo, la probabilidad de seleccionar la unidad Ui en una extraccin (probabilidad unitaria de seleccin) es Pi = Mi/M = p(ui) i = 1, 2,..., N. Se cumple que:
N N M M M Pi = i = N i Pi = i = i =1 M M i =1 M M i i=1 i =1

M =1 M

con lo que el modelo est bien definido. Los valores /i y /ij relativos, respectivamente, a la probabilidad de que una unidad de la poblacin pertenezca a la muestra y de que un par de unidades de la poblacin pertenezcan a la muestra para muestras de tamao 2 son:

/ i = Pi 1 +

N 1 < 2 Pi Pi P + = i j =1 1 < Pj i =1 1 < P i 1 < Pi j &i


N

Pj

/ ij = Pi Pj

1 1 + 1 < Pi 1 < Pj

Al conocer /i y/ij este mtodo de seleccin sin reposicin queda perfectamente definido, ya que los estimadores y sus errores dependen slo de estos valores. El mtodo es generalizable para muestras de tamao n.

Muestreo estadstico: conceptos, estimadores y su distribucin

59

Estimador de Horvitz y Thompson con seleccin Brewer


Brewer propuso un mtodo de seleccin para muestras de tamao n tal que la primera unidad se extrae sin reposicin con probabilidad proporcional al valor:
k i = Pi

(1 < Pi ) (1 < 2 Pi )

Pi <

y el resto de las extracciones se realizan sin reposicin y con probabilidades proporcionales a Pi . Para muestras de tamao 2 las probabilidades /i y /ij son las siguientes:

/ i = 2Pi

/ ij =

1 2 Pi Pj 1 + * N Pi 1 < 2 Pi 1 < 2 Pj 1+ i =1 1 < 2 P i

Para muestras de tamao n se demuestra que /i = nPi.

Estimador de Horvitz y Thompson con seleccin Durbin


El mtodo de Durbin consiste en un muestreo con probabilidades desiguales y sin reemplazamiento con el siguiente mtodo de seleccin para una muestra de tamao n = 2: la primera unidad es seleccionada con probabilidad dada Pi y la segunda unidad se selecciona con probabilidades proporcionales a kj , siendo:
1 1 k j = Pj + 1 < 2 Pi 1 < 2 Pj

Para muestras de tamao 2 las probabilidades /i y /ij son las siguientes:

/ i = 2Pi

/ ij =

1 2 Pi Pj 1 + * N Pi 1 < 2 Pi 1 < 2 Pj 1+ < 1 2 P i =1 i

Para muestras de tamao n se demuestra que /i = nPi. Se observa que los valores de / i y / ij son idnticos a los obtenidos con el mtodo de seleccin de Brewer. Con estos valores ya se pueden hallar estimadores y errores.

Estimador de Horvitz y Thompson con selecciones de Ikeda y Mitzuno


Ikeda propuso un mtodo de seleccin en el que la primera unidad se obtiene sin reposicin con probabilidad Pi proporcional a su tamao Mi y las n <1 unidades restantes de la muestra se seleccionan sin reposicin y con probabilidades iguales. Los valores de /i y /ij para este mtodo son:
n <1 n <1 N < n * Pi + = N <1 N <1 N <1

/ i = Pi + (1 < Pi ) *
/ ij = Pi *

n <1 n <1 n <1 n < 2 n <1 N < n (Pi + Pj ) + n < 2 * + Pj + (1 < (Pi + Pj )) * = * N <1 N <1 N <1 N < 2 N <1 N < 2 N < 2

60

Muestreo estadstico. Conceptos y problemas resueltos

Este mtodo de Ikeda es un caso particular del mtodo ms general de Mitzuno, que consiste en comenzar efectuando m extracciones sin reposicin y con probabilidades iguales; en la extraccin m + 1 se asignan probabilidades:
Pi +
r =1 m

Pr N <m

donde Pr corresponde a la unidad extrada en r-simo lugar (1) r )m), y por ltimo las n<(m+1) unidades muestrales restantes se seleccionan sin reposicin y probabilidades iguales. El mtodo de Ikeda es un caso particular del mtodo de Mitzuno para m = 0.

Estimador de Horvitz y Thompson con seleccin Sampford


En este mtodo los elementos muestrales se eligen con reposicin seleccionando el primer elemento con probabilidad Pi y los restantes n < 1 elementos con probabilidades proporcionales a Pi/(1 < nPi). Finalizada la extraccin, la muestra se acepta si todos los elementos son diferentes, y en caso contrario se rechaza y se vuelve a empezar. Se tiene que:
1 + (Pi + Pj ) < Pk2 + 2(Pi 2 + Pj2 ) < 2 Pk3 < (n < 2) Pi Pj + k k / ij 5 n(n < 1) Pi Pj 2 + (n < 3)(Pi + Pj ) < Pk3 < (n < 3) P k k k

/ i = nPi

Muestreo con probabilidades gradualmente variables


Se considera un esquema de urna en el que la unidad Ui viene representada por Mi bolas. En este esquema de seleccin con probabilidades gradualmente variables, al seleccionar la unidad Ui se retira una bola de entre las Mi que representan a Ui y no se vuelve a reponer a la urna para la siguiente extraccin. Se podr extraer la unidad Ui las veces que corresponda mientras no se acaben las Mi bolas que la representan o mientras no se cubra el tamao n de la muestra, por lo que la unidad Ui puede figurar en la muestra un mximo de veces igual a Mn(Mi,n) i=1,..,N. La probabilidad de una muestra de tamao n seguir el modelo hipergeomtrico generalizado (conjunta de n hipergeomtricas ei). Si cada unidad Ui de la poblacin puede elegirse para la muestra ti veces con i = 1, 2, ..., N y se cumple que

t
i =1

= n , tenemos:

P (~ x ) = P(U 1 , LU 1 , U 2 , L , U 2 , L , U N , L , U N ) = P(e1 = t1 , e 2 = t 2 , L , e N = t N ) 1 4 24 3 14 24 3 14 24 3 t1 veces t2 veces t N veces M 1 M 2 M N t L 1 t 2 t N = = M1 + M 2 +LM N t + t + Lt N 1 2 M u P1 M u P2 M u PN t L 1 t 2 t N M n

con

t
i =1

=n

Mediante seleccin con probabilidades gradualmente variables, el estimador lineal insesgado (de Snchez Crespo y Gabeiras) para el parmetro poblacional e = Yi ser:
i =1 N

eSCG

n Y 1 = t i Yi = Yi = i = e HH nP nP i =1 i =1 i =1 i i n n

Muestreo estadstico: conceptos, estimadores y su distribucin

61

que coincide con la expresin del estimador de Hansen y Hurwitz para muestreo con reposicin y probabilidades desiguales. Se cumple que:
M <n Ve V (e HH ) SCG = M <1
n Y 1 )= M <n (e i V SCG M n( n < 1) i =1 P i
2 M <n 2 <ne SCG = M V (e HH )

( )

Se observa que el estimador de Snchez Crespo y Gabeiras tiene menor varianza y menor varianza estimada que el estimador de Hansen y Hurwitz, ya que:

M <n M <n ) ) y V (e e Ve V (e HH ) ) V (e V (e HH ) ) V HH HH SCG = SCG = M <1 M


Gabeiras sugiri una generalizacin del mtodo anterior consistente en retirar b bolas en lugar de una cuando la unidad i-sima es seleccionada para formar parte de la muestra, supuesto un esquema de urnas en el que la unidad U i est representada por M i bolas (i = 1, ..., N ) , siendo b el mayor valor que permita a todas las unidades estar Min( M i ) representadas en la urna durante las n extracciones, es decir, b = . n <1 Snchez Crespo comprob que con esta restriccin la varianza del estimador resultante es menor e incluso en ciertos casos inferior a la varianza de los estimadores obtenidos bajo un muestreo sin reposicin y probabilidades desiguales. La varianza del estimador para el total con el esquema mixto (generalizacin del muestreo gradual) viene dada por la expresin: ) = M < bn V ( X ) V (X SC HH M <b Se denomina esquema mixto a este procedimiento de muestreo ya que puede considerarse con reposicin, en el sentido de que cada unidad puede pertenecer a la muestra ms de una vez, y sin reposicin, pues no se reponen en la urna las b unidades retiradas en cada extraccin.

( )

( )

Mtodo de Murthy
Murthy mejor un mtodo anterior de Des Raj extrayendo unidades sucesivas para la muestra con probabilidades Pi, Pj(1<Pi), Pk(1<Pi<Pj) y as sucesivamente. Propuso el estimador del total:
= X M

P( S / i) X
i =1

P( S )

X = , V M

( )

1 P( S ) 2

Xi X j [P( S ) P( S / i, j ) < P( S / i) P( S / j )]Pi Pj < P Pj i =1 j > i i


n n

P(S) = Probabilidad incondicional de obtener la muestra S. P(S/i) = Probabilidad de obtener la muestra S condicionado a que se sac la unidad i la primera P(S/i,j) = Probabilidad de S condicionado a que se sacaron las unidades i y j las dos primeras. Para n=2 se tiene que P(S/i) = Pj/(1<Pi) y P(S) = /ij = PiPj(2<Pi<Pj)/(1<Pi)(1<Pj) y adems:
Pj (1< P 1< Pj )( 1< P X Xj 1 Xi i )( i <P j ) Xi = < j / i = Pi 1+ (1< Pj ) + (1< P , V(XM ) = X M i) 2 (2 < P Pj 2< P P Pj j &i 1< Pj i <P j) i i <P j i P
2

62

Muestreo estadstico. Conceptos y problemas resueltos

MTODO DE MONTECARLO
Es un procedimiento general para seleccionar muestras aleatorias simples de cualquier poblacin (finita o infinita, real o terica) de la que se conoce su distribucin de probabilidad.

Variable aleatoria discreta


Consideremos la variable aleatoria discreta siguiente y veremos cmo se toma una muestra de ella. x
_______________________________________

P(x)

F(x)

0 1 2 3 4

0,41 0,26 0,18 0,10 0,05

0,41 0,67 0,85 0,95 1

Observamos los valores de la funcin de distribucin y, basndonos en ellos, construimos la tabla: Intervalos 00-40 41-66 67-84 85-94 95-99
_______________________________________

F(x)

0 1 2 3 4

0,41 0,67 0,85 0,95 1

Para seleccionar la muestra aleatoria segn la variable X, elegimos un nmero aleatorio entre 0 y 99 y observamos en qu intervalo cae, eligiendo para la muestra el valor x correspondiente a ese intervalo. Tambin se puede tomar el nmero aleatorio y convertirlo en decimal NA (por ejemplo, si sale 69 utilizamos NA = 0,69) y tomar para la muestra el valor x ms pequeo que verifica F(x) > NA F(x) 1 0,95 0,85 NA=0,69 0,67

0,41

El valor x ms pequeo que verifica F(x) > 0,69 es x = 2, luego el primer valor para la muestra es x = 2.

Muestreo estadstico: conceptos, estimadores y su distribucin

63

Variable aleatoria continua


El proceso a seguir sera el siguiente:

Tomar un nmero aleatorio de tantas cifras como precisin se desee y convertirlo en decimal (por ejemplo, 23457 se convertira en 0,23457), y sea NA dicho valor. Considerar el valor NA como un valor de F(x) y tomar como valor observado en la muestra aquel valor de x tal que NA=F(x) x=F-1(NA). Repetir el proceso con distintos nmeros aleatorios hasta completar el tamao de muestra deseado. F(x) NA

x=F-1(NA) Dado el nmero aleatoria NA, se toma para la muestra el valor x tal que x=F-1(NA).

64

Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
2.1.
Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad, con el propsito de estimar la proporcin de pacientes que han estado (o estarn) en el hospital por ms de dos das consecutivos. Puesto que los hospitales varan en tamao, stos sern muestreados con probabilidades proporcionales al nmero de sus pacientes. Con la informacin sobre los hospitales dada en la tabla adjunta se selecciona una muestra de tres hospitales con probabilidades proporcionales al tamao (nmero de pacientes) con reposicin utilizando el modelo del tamao acumulativo (o modelo polinomial). Hospital 1 4 Pacientes 328 220 Hospital 2 5 Pacientes 109 280 Hospital 3 6 Pacientes 432 190

Puesto que sern seleccionados tres hospitales, deben ser elegidos tres nmeros aleatorios entre el 0001 y el 1559 = Pacientes. Nuestros nmeros elegidos son 1505, 1256 y 0827. Qu hospitales sern elegidos para la muestra? Supngase que los hospitales muestreados registraron los siguientes datos sobre el nmero de pacientes con permanencia de ms de dos das: Hospital a b c N de pacientes con ms de dos das de permanencia 250 150 80

1) Estimar la proporcin de pacientes con permanencia superior a dos das para los seis hospitales. 2) Establecer un lmite para el error de estimacin con una confianza del 95%. Para seleccionar la muestra comenzamos construyendo la tabla relativa al mtodo del tamao acumulativo.
I 1 = [1, M 1 ] = [1,328] I 2 = [ M 1 + 1,M 1 + M 2 ] = [329,437] I 3 = [438,869] A 827 I 4 = [870,1089] I 5 = [1090,1369] A 1256 I 6 = [1370,1559] A 1505 Unidades Tamaos u1 u2 u3 M uN M1 M2 M3 M MN

Para seleccionar tres hospitales para la muestra se eligen tres nmeros aleatorios entre 0001 y 1559 que resultan ser el 1505, el 1256 y el 0827. Localizados estos nmeros en la columna de los intervalos acumulados, seleccionamos para la muestra los hospitales 3, 5 y 6. A continuacin se presenta un esquema ilustrativo de la seleccin de las unidades muestrales.

Muestreo estadstico: conceptos, estimadores y su distribucin

65

M3 = 432 M5=280 M4=220 M5=280 M2=109 PPT M3=432 A2 = 150 P 2=150/280 A3 = 250 A1=80

P3=250/432 P1= 80 M1=328 M6=190

190

M6=190

N = 6, M=1559

n=3

A continuacin se realiza la estimacin de la proporcin de pacientes con permanencia superior a dos das utilizando el estimador de Hansen y Hurwitz (ya que el mtodo de seleccin de la muestra es con reposicin). Se tiene:
= 1 X = 1 X HH M M

nP
i

Xi

1 M

n Mi Xi 1 n 80 150 250 = 1 P = 1 = Xi P + + = 0,51 i Mi n i n i 3 190 280 432 n M

Por lo tanto, se estima que un 51% de los pacientes permanece ms de dos das en el hospital. A continuacin hallamos el error de esta estimacin.
2

n Y )= 1 (e i <e V HH HH n(n <1) i =1 Pi

Xi 2 n M 1 1 n (X ) = V < X X X = < i HH HH HH n(n <1) i =1 n(n <1) i =1 M i M

con lo que se tiene:

P = V

()

(P
n i

<P

n (n < 1)

2 2 2 1 80 150 250 0 , 51 0 , 51 < + < + < 0 , 51 = 0,0022 3u2 280 432 190

P = V P = 0,0022 = 0,0091 A 1% C v 0,51 P

()

()

Se observa que el error relativo de muestreo es del 1%. A continuacin se realiza una estimacin por intervalos al 95% de confianza.
h V (P ) = 0,51 1,96 0,0022 = [0.4, 0.6] A 95 % confianza P _

Se observa que el intervalo de confianza es muy estrecho. Esto se debe a que la estimacin realizada es bastante precisa (solamente un 5% de error). Utilizando la hoja de clculo Excel, se pueden automatizar los clculos anteriores tal y ) como se indica en las figuras siguientes (en las figuras, Pi juega el papel de P i

66

Muestreo estadstico. Conceptos y problemas resueltos

2.2.

Una multinacional tiene un total de 40.000 trabajadores distribuidos en 400 fbricas de 100 obreros cada una. Una muestra aleatoria con probabilidades iguales sin reposicin de 25 fbricas presenta la siguiente distribucin de obreros mayores de 50 aos:
Total de obreros 12 17 23 33 36 mayores de 50 aos N de fbricas 2 3 9 5 6 de la muestra

Estimar el total y la proporcin de obreros de la multinacional con ms de 50 aos, as como sus errores de muestreo absolutos y relativos.

Muestreo estadstico: conceptos, estimadores y su distribucin

67

9 M2=100 PI A4 = 33 5 SR M400=100 N = 400 M1=100 A5 = 36 6 n = 20 A1 = 12 2 A3 = 23 3 A2 = 17

Como el muestreo es con probabilidades iguales y se seleccionan 25 fbricas de entre 400, se tiene /i = 25/400 = 0,0625 y /ij = (25.24)/(400.399) = 0,00376. Como el mtodo es sin reposicin, tomamos como estimador del total de clase el estimador de Horwitz y Thompson y tenemos: 25 Ai 2 u 12 + 3 u 17 + 9 u 23 + 5 u 33 + 6 u 36 = = = 10608 A HT 25 / 400 i =1 / i Para estimar la varianza tomamos el estimador de Yates y Grundy. Tenemos:
2 25 25 ) = / i / j < / ij Ai < A j = 0,0625 < 0,00376 (A < A )2 = (A V i j HT / 0,00376 u 0,0625 2 i < j / ij i< j i /j 2

= 9,957 2 u 3(12 < 17 ) + L + 5 u 6(33 < 36) 2 = 386906,5


2

Las operaciones anteriores totalmente desarrolladas se muestran a continuacin.


) = 9,957[2*3(12-17)2+2*9(12-23)2+2*5(12-33)2+2*6(12-36)2+3*9(17-23)2+3*5(17-33)2 (A V HT +3*6(17-36)2 +9*5(23-33)2+9*6(23-36)2+5*6(33-36)2 = 386906,553 ) = 386906,5 = 622, con lo que el error El error absoluto de muestreo ser m ( A HT ) m (A 622 HT u 100 = u 100 = 0,05863 A 5,8% relativo valdr 10608 AHT

Como estimador de la proporcin de trabajadores mayores de 40 aos tenemos:

= AHT = 10608 = 0,2642 = 26,42% P HT M 40000


El estimador insesgado de su varianza ser :
(P ) = V ( AHT ) = 386906,5 = 0,000242 V HT M2 40000 2

) = 0,000242 = 0,0155 , con lo que el error El error absoluto de muestreo ser m ( P HT m ( PHT ) 0,0155 relativo valdr u 100 = u 100 = 0,05863 A 5,8% . 0,2642 P HT

68

Muestreo estadstico. Conceptos y problemas resueltos

2.3.

Considrese la poblacin de los grupos de la materia Introduccin a la Estadstica que se imparte en cierta universidad. La universidad tiene 647 estudiantes de esta materia repartidos en 15 grupos con Mi estudiantes cada grupo segn la tabla siguiente:
Grupos ( Poblacin) Mi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 44 33 26 22 76 63 20 44 54 34 46 24 46 100 15

Extraemos una muestra de cinco grupos con probabilidades proporcionales a los tamaos de los grupos con reemplazo y anotamos el total de horas durante una semana que todos los estudiantes de cada grupo han empleado para estudiar la materia de Introduccin a la Estadstica. Los datos se recogen en la siguiente tabla:
Grupos ( Muestra) Horas a b c d e 120 203 100 90 40

Si se ha selecciona la muestra {a, b, c, d, e} por el mtodo del tamao acumulativo, estimar la cantidad promedio de tiempo semanal que un estudiante emple para estudiar la materia Introduccin a la Estadstica midiendo la calidad de la estimacin. Estimar por intervalos al 95%. Podemos realizar la disposicin de los clculos del mtodo del tamao acumulativo y la obtencin de los cinco nmeros aleatorios, como se indica en la siguiente hoja de Excel.

Realizados los clculos, tenemos la siguiente tabla:

Muestreo estadstico: conceptos, estimadores y su distribucin

69

La muestra estar formada por los grupos {6, 14, 11, 9, 7} cuyos tamaos son los siguientes: Grupos ( Muestra) 6 14 11 9 7 Tamaos ( M i ) 63 100 54 46 20 y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) Horas ( X i ) 6 14 11 9 7 120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Hansen y Hurwitz (ya que el mtodo de seleccin de la muestra es con reposicin). Se tiene:
n n n n 120 203 100 90 40 = 1 X = 1 Xi = 1 Xi = 1 Xi = 1 X = 1 X + + + + = 1,94 HH HH i M M i nP M i Mi n i Mi n i 5 63 100 54 46 20 i n M

Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica es algo inferior a dos horas. A continuacin hallamos el error de esta estimacin.

n n X X 1 1 1 1 1 )= i i (X (X )= = < < M X X V V P HH HH HH HH M 2 n(n < 1) i =1 M i M2 M 2 n(n < 1) i =1 i M


2 2 2

n n Xi Xi 1 1 1 1 n M2 = 2 < = < = X M M X X i < X HH HH HH 2 n(n < 1) i =1 M n(n < 1) i =1 M i M n(n < 1) i =1 M i

con lo que se tiene:


2 2 2 2 2 = 1 120 < 1,94 + 203 < 1,94 + 100 < 1,94 + 90 < 1,94 + 40 <1,94 = 0,0034 V X HH 5u 4 20 46 54 100 63

V X HH 0,0034 Cv P = = = 0,03 A 3% 1,94 X

()

HH

Se observa que el error relativo de muestreo es del 3%. A continuacin se realiza una estimacin por intervalos al 95% de confianza.
) = 0,51 1,96 0,0034 = [1.83, 2.06 ] A 95 % confianza h V (X X HH _ HH

Se observa que el intervalo de confianza es muy estrecho. Esto se debe a que la estimacin realizada es bastante precisa (solamente un 3% de error). A continuacin se presentan clculos y resultados automatizados con Excel.

70

Muestreo estadstico. Conceptos y problemas resueltos

Muestreo estadstico: conceptos, estimadores y su distribucin

71

2.4.

Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} utilizando el mtodo de Lahiri. Para seleccionar la muestra mediante el mtodo de Lahiri elegimos un par de nmeros aleatorios (i, j) tales que 1) i ) N = 15 y 1) j ) M 0 = Max { ( M i ) = 100.
i =1, 2 ,..., N

Si j ) Mi la unidad seleccionada para la muestra es la ui. Si j > Mi, se repite la seleccin del par de nmeros aleatorios (i,j) tales que 1) i ) N y 1) j ) M0 tantas veces como sea necesario hasta que j ) Mi. La obtencin de los nmeros aleatorios (i,j) puede realizarse con Excel mediante la funcin ALEATORIO.ENTRE (que se evaluar las veces necesarias para cubrir el tamao muestral) tal y como se indica en la figura siguiente.

El resultado obtenido es el siguiente:

72

Muestreo estadstico. Conceptos y problemas resueltos

La muestra estar formada por los grupos {5, 9, 14, 13, 12} cuyos tamaos son los siguientes: Grupos ( Muestra) 5 9 14 13 12 Tamaos ( M i ) 76 54 100 46 24 y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) Horas ( X i ) 5 9 14 13 12 120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Hansen y Hurwitz (ya que el mtodo de seleccin de la muestra es con reposicin). Se tiene:
n n n n 120 203 100 90 40 = 1 X = 1 Xi = 1 Xi = 1 Xi = 1 X = 1 + + + + = 1,99 X HH HH i M M i nP M i n Mi n i Mi n i 5 76 54 100 46 24 i M Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica es prcticamente dos horas. A continuacin hallamos el error de esta estimacin.

n n Xi Xi 1 1 1 1 1 < MX HH V ( X HH ) = 2 V ( X HH )V (e HH ) = 2 P < X HH = M 2 n(n <1) M M M n(n <1) i =1 1 i = i i M


2 n n Xi Xi M2 1 1 1 1 n = 2 < = < = M M X X X i < X HH M HH HH 2 < < n n M n n ( 1 ) ( 1 ) M n(n <1) i =1 M i =1 i =1 i i 2 2 2

con lo que se tiene:


2 2 2 2 2 1 120 40 90 100 203 V < 1,99 + < 1,99 + < 1,96 = 0,73 < 1,99 + < 1,99 + = X HH 5u 4 24 46 100 54 76

V X HH 0,73 = C X = = 0,429 A 43% v HH 1,99 X


HH

Se observa que el error relativo de muestreo es del 43%. A continuacin se realiza una estimacin por intervalos al 95% de confianza.
h V ) = 1,99 1,96 0,73 = [0.31, 3.66 ] A 95 % confianza (X X HH _ HH

Se observa que el intervalo de confianza es ms ancho que en el problema anterior. Esto se debe a que la estimacin realizada es menos precisa (43% de error). A continuacin se presentan clculos y resultados automatizados con Excel.

Muestreo estadstico: conceptos, estimadores y su distribucin

73

74

Muestreo estadstico. Conceptos y problemas resueltos

2.5.

Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} sin reposicin utilizando el mtodo de Ikeda. Mediante el mtodo de Ikeda la primera unidad se obtiene sin reposicin con probabilidad Pi proporcional a su tamao Mi y las n <1 = 4 unidades restantes de la muestra se seleccionan sin reposicin y con probabilidades iguales (1/4) descartando el elemento elegido inicialmente. Los valores de /i y /ij para este mtodo son:

/i =

n <1 N <n * Pi + N <1 N <1

/ ij =

n <1 N < n (Pi + Pj ) + n < 2 * N <1 N < 2 N < 2

Para elegir la primera unidad proporcional a su tamao podemos utilizar el mtodo de Lahiri del problema anterior, resultando seleccionada como primera unidad muestral u5. A continuacin elegimos cuatro nmeros aleatorios entre 1 y 15 (sin tener en cuenta el 5). Las probabilidades Pi, /i y los cuatro nmeros aleatorios restantes para seleccionar las cuatro unidades que faltan para completar la muestra, pueden obtenerse como se indica en la tabla Excel siguiente.

El resultado obtenido es el siguiente:

Muestreo estadstico: conceptos, estimadores y su distribucin

75

La muestra estar formada por los grupos {5, 9, 14, 13, 12} cuyos tamaos son los siguientes: Grupos ( Muestra) 5 11 4 2 12 Tamaos ( M i ) 76 46 22 33 24 y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) Horas ( X i ) 5 11 4 2 12 120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Horvitz y Thompson (ya que el mtodo de seleccin de la muestra es sin reposicin). En la tabla siguiente se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).
MUESTRA Mi
5 11 4 2 12 SUMA= 76 46 22 33 24

Pi=Mi/M
0,1174652 0,0710974 0,0340031 0,0510046 0,0370943

/i = Pi (N-n)/(N-1) + (n-1)/(N-1)

Xi

Xi//i
324,659 603,272 322,578 279,376 128,119 1658,01

0,369618017 120 0,336498123 203 0,310002208 100 0,322146169 90 0,312210201 40

= 1 X = 1 X HT HT M M

/
i =1

25

Xi
i

1 120 203 100 90 40 1658 + + + + = 2,56 = 647 0 , 369 0 , 336 0 , 310 0 , 322 0 , 312 647

Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica es prcticamente dos horas y media. A continuacin hallamos el error de esta estimacin a travs de la estimacin de la varianza. En la siguiente tabla se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).
(Xi//i)2(1-/i)
66444,64999 241473,2008 71798,95557 52907,24303 11289,67748 SUMA=443913,7

/ij
0,107 0,099 0,103 0,1 0,089 0,093 0,09 0,085 0,082 0,085

Xi
120 120 120 120 203 203 203 100 100 90

Xj
203 100 90 40 100 90 40 90 40 40

/i
0,3696 0,3696 0,3696 0,3696 0,3365 0,3365 0,3365 0,31 0,31 0,3221

/j
0,3365 0,31 0,3221 0,3122 0,31 0,3221 0,3122 0,3221 0,3122 0,3122

Pi
0,117 0,117 0,117 0,117 0,071 0,071 0,071 0,034 0,034 0,051

Pj
0,0711 0,034 0,051 0,0371 0,034 0,051 0,0371 0,051 0,0371 0,0371

(Xi//i)(Xj//j)(/ij-/i/j)//ij
-31007,41923 -16210,59516 -14192,52368 -6451,525615 -33402,58498 -28399,38423 -13220,87321 -16240,761 -7715,377148 -6412,377049 2*SUMA= -346506,8426

76

Muestreo estadstico. Conceptos y problemas resueltos


2 5 5 X X / ij < / i / j 1 1 5 Xi = (1 < / i ) + 2 i j V X HT = 2 2 X HT = 2 V M / M i =1 j > i / i / j i =1 / i ij X 1 X 2 / 12 < / 1/ 2 X 52 X X / 45 < / 4 / 5 1 X 12 ( ) (1 < / 5 ) + 2 L / 1 < + + +L+ 4 5 1 2 / / / 12 /4 /5 / 45 /5 M 1 2 /1 443913,7269 < 346506,8426 = = 0,232692 647 2

( )

con lo que se tiene:


C v X HT = V X HT 0,232692 = = 0,188 A 19% 2,56 X
HT

Se observa que el error relativo de muestreo es del 43%. A continuacin se realiza una estimacin por intervalos al 95% de confianza.
h V ) = 2,56 1,96 0,232692 = [1.617 , 3.508 ] A 95 % confianza (X X HT _ HT

Se observa que el intervalo de confianza es ms estrecho que en el problema anterior. Esto se debe a que la estimacin realizada es ms precisa (19% de error). A continuacin se presentan clculos y resultados automatizados con Excel.

Muestreo estadstico: conceptos, estimadores y su distribucin

77

2.6.

Resolver el problema anterior suponiendo que se selecciona la muestra {a, b, c, d, e} sin reposicin utilizando el mtodo de Sampford. En el mtodo de Sampford los elementos muestrales se eligen con reposicin seleccionando el primer elemento con probabilidad Pi y los restantes n < 1 elementos con probabilidades proporcionales a Pi/(1-nPi). Finalizada la extraccin, la muestra se acepta si todos los elementos son diferentes, y en caso contrario se rechaza y se vuelve a empezar. Mediante este mtodo se tiene que:

/ i = nPi

78

Muestreo estadstico. Conceptos y problemas resueltos

1 + (Pi + Pj ) < Pk2 + 2(Pi 2 + Pj2 ) < 2 Pk3 < (n < 2) Pi Pj + k k / ij 5 n(n < 1) Pi Pj 2 + (n < 3)(Pi + Pj ) < Pk3 < (n < 3) Pk k k

Para llevar a la prctica el mtodo de Sampford se calculan los Pi = Mi/M y a continuacin se hallan YPi2 y YPi3, valores que se utilizarn para calculai /ij. La siguiente tarea es calcular Pi/(1<5Pi), Pi = [Pi/(1<5Pi)]/Y [Pi/(1<5Pi)] y /i = 5Pi. La siguiente tarea es extraer las cinco unidades muestrales. La primera unidad se extrae con probabilidad Pi = Mi/M proporcional a su tamao Mi y las siguientes unidades se extraen con probabilidades Pi= [Pi/(1<5Pi)]/Y[Pi/(1<5Pi)] proporcionales a Pi/(1<5Pi), con reemplazamiento. Si sale alguna unidad repetida se repiten otra vez todas las extracciones hasta que no salga ninguna repetida. Para elegir la primera unidad proporcional a su tamao podemos utilizar el mtodo de Lahiri del problema 2.4, resultando seleccionada como primera unidad muestral u5. Para elegir las cuatro siguientes unidades volvemos a repetir el mtodo de Lahiri [extraccin de pares de nmeros aleatorios (i,j) con 1) i )15 y 0) j ) Mx(Mi) = 0,68 hasta que j ) Mi] y resultan elegidas u3, u8, u13 y u14. Las tablas siguientes ilustran las frmulas con Excel y los resultados obtenidos.

Mi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
SUMA

44 33 26 22 76 63 20 44 54 34 46 24 46 100 15 647

Pi=Mi/M Mi=Pi/(1-5Pi) 0,0680062 0,103044 0,0510046 0,068465 0,0401855 0,05029 0,0340031 0,040968 0,1174652 0,284644 0,0973725 0,189759 0,0309119 0,036563 0,0680062 0,103044 0,0834621 0,143236 0,0525502 0,071279 0,0710974 0,110312 0,0370943 0,045541 0,0710974 0,110312 0,1545595 0,680272 0,0231839 0,026224 1 2,063954

/i 0,34 0,255 0,2009 0,17 0,5873 0,4869 0,1546 0,34 0,4173 0,2628 0,3555 0,1855 0,3555 0,7728 0,1159 5

Pi' i j 0,0499 0,0332 4 0,613 0,0244 14 0,037 <M'3=0,04 0,0198 14 0,665 0,1379 4 0,365 0,0919 13 0,514 0,0177 2 0,585 0,0499 4 0,096 <M'8=0,10 0,0694 14 0,231 0,0345 11 0,081 0,0534 15 0,674 0,0221 3 0,295 0,0534 13 0,054 <M'13=0,11 0,3296 1 0,319 <M'14=0,68 0,0127 1

Ui 5 3

13 14

Pi2 Pi3 0,0046 0,0026 0,0016 0,0012 0,0138 0,0095 0,001 0,0046 0,007 0,0028 0,0051 0,0014 0,0051 0,0239 0,0005 0,0845

0,00031 0,00013 6,5E-05 3,9E-05 0,00162 0,00092 3E-05 0,00031 0,00058 0,00015 0,00036 5,1E-05 0,00036 0,00369 1,2E-05 0,00864

Muestreo estadstico: conceptos, estimadores y su distribucin

79

La muestra estar formada por los grupos {5, 3, 8, 13, 14} cuyos tamaos son los siguientes: Grupos ( Muestra) 5 3 8 13 14 Tamaos ( M i ) 76 26 44 46 100 y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) Horas ( X i ) 5 3 8 13 14 120 203 100 90 40

A continuacin se realiza la estimacin del promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Horvitz y Thompson (ya que el mtodo de seleccin de la muestra es sin reposicin). En la siguiente tabla se presentan todos los clculos necesarios para realizar la estimacin (N=15, n=5).
MUESTRA 5 3 8 13 14 Mi 76 26 44 46 100 Pi=Mi/M 0,1174652 0,0401855 0,0680062 0,0710974 0,1545595 /i = 5Pi 0,5873 0,2009 0,34 0,3555 0,7728 Xi 120 203 100 90 40 Xi//i 204,32 1010,3 294,09 253,17 51,76 1813,7 (Xi//i)2(1-/i) 17227,0471 815643,153 57080,3719 41311,3781 608,6976 931870,648

= 1 X = 1 X HT HT M M

/
i =1

25

Xi
i

1 120 203 100 90 40 1813,7 + + + + = 2,8 = 647 0,587 0,201 0,340 0,355 0,772 647

Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica es 2,8 horas. A continuacin hallamos el error de esta estimacin a travs de la estimacin de la varianza. Ahora se presenta la tabla con todos los clculos necesarios para realizar la estimacin (N = 15, n = 5).
(Xi//i)(Xj//j)(/ij-/i/j)//ij (Xi//i)2(1-/i) /ij /i /j Xi Xj Pi Pj 17227,0471 0,1024232 120 203 0,58733 0,201 0,117 0,04 -31413,39362 815643,153 0,177923 120 100 0,58733 0,34 0,117 0,068 -7357,500123 57080,3719 0,1865756 120 90 0,58733 0,355 0,117 0,071 -6157,939465 41311,3781 0,4440242 120 40 0,58733 0,773 0,117 0,155 -234,8366464 608,6976 0,0554606 203 100 0,20093 0,34 0,04 0,068 -68900,81915 931870,648 0,0582159 203 90 0,20093 0,355 0,04 0,071 -58046,26694 0,1421053 203 40 0,20093 0,773 0,04 0,155 -4846,785171 0,1016725 100 90 0,34003 0,355 0,068 0,071 -14063,38541 0,2458765 100 40 0,34003 0,773 0,068 0,155 -1046,18541 0,2577209 90 40 0,35549 0,773 0,071 0,155 -864,3197294 -385862,8633

80

Muestreo estadstico. Conceptos y problemas resueltos


5 5 X X / ij < / i / j 1 1 5 X i2 (1 < / i ) + 2 i j V X HT = 2 2 X HT = 2 V M / ij M i =1 j > i / i / j i =1 / i

( )

= =

X 12 X 1 X 2 / 12 < / 1/ 2 X2 (1 < / 1 ) + L + 5 (1 < / 5 ) + 2 / / / / / 12 1 5 1 2 931870,648 < 385862,8633 = = 1,3043 647 2 1 M2


con lo que se tiene:

X 4 X 5 / 45 < / 4 / 5 +L+ / / / 45 4 5

C v X HT =

V X HT 1,3043 = = 0,4074 A 41% 2,8 X


HT

Se observa que el error relativo de muestreo es del 41%. A continuacin se realiza una estimacin por intervalos al 95% de confianza.
h V ) = 2,8 1,96 1,3043 = [0.56, 5.04 ] A 95 % confianza (X X HT _ HT

A continuacin se presentan los resultados automatizados con Excel.

Muestreo estadstico: conceptos, estimadores y su distribucin

81

2.7.

Resolver el problema anterior suponiendo que se selecciona una muestra de tamao 2 sin reposicin mediante el mtodo de Brewer. Brewer propuso un mtodo de seleccin para muestras de tamao n tal que la primera unidad se extrae sin reposicin con probabilidad proporcional al valor:
k i = Pi

(1 < Pi ) (1 < 2 Pi )

Pi <

y el resto de las extracciones se realizan sin reposicin y con probabilidades proporcionales a Pi . Para muestras de tamao 2 las probabilidades /i y /ij son las siguientes:

/ i = 2Pi

/ ij =

1 2 Pi Pj 1 * + N Pi 1 < 2 Pi 1 < 2 Pj 1+ i =1 1 < 2 P i

En nuestro problema, para realizar la primera extraccin con probabilidades proporcionales a ki aplicaremos el mtodo de Lahiri seleccionando pares de nmeros aleatorios (i,j) con 1) i) 15 y 0) j) Mx(ki)=0,68 hasta que j ) ki,con lo que resulta elegida la unidad u12 despus de dos intentos. Para realizar la segunda extraccin con probabilidades proporcionales a Mi aplicaremos otra vez el mtodo de Lahiri seleccionando pares de nmeros aleatorios ( i,j) con 1) i ) 15 y 0 ) j ) Mx(Mi)=100 hasta que j ) Mi,con lo que resulta elegida la unidad u4 despus de tres intentos. Las tablas siguientes ilustran las frmulas con Excel y los resultados obtenidos.

82

Muestreo estadstico. Conceptos y problemas resueltos

La muestra estar formada por los grupos {12, 4} cuyos tamaos son los siguientes:
Grupos ( Muestra) Tamaos ( M i ) 12 4 24 22

y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) Horas ( X i ) 12 4 120 203

A continuacin se realiza la estimacin del promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Horvitz y Thompson (ya que el mtodo de seleccin de la muestra es sin reposicin). En la tabla siguiente se presentan todos los clculos necesarios para realizar la estimacin (N = 15, n = 2).
MUESTRA Mi 12 24 4 22 Pi=Mi/M /i Xi 0,03709 0,074 0,034 0,068 (Xi//i)2(1-/i) Xi//i 120 1617,5 2422206,3 203 2985,0227 8304401,1 4602,5227 10726607

= 1 X = 1 X HT HT M M

/
i =1

25

Xi
i

1 120 203 4602,5227 + = 4,614 = 647 0,074 0,068 647

Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica es 4,6 horas. A continuacin hallamos el error de esta estimacin a travs de la estimacin de la varianza. Ahora se presenta la tabla con todos los clculos necesarios para realizar la estimacin (N = 15, n = 2).
(Xi//i)(Xj//j)(/ij-/i/j)//ij (Xi//i)2(1-/i) /ij /i /j Xi Xj Pi Pj 2422206,3 0,00297 120 203 0,07419 0,068 0,037 0,034 -3383694,955 8304401,1 -6767389,909 10726607

Muestreo estadstico: conceptos, estimadores y su distribucin


5 5 X X / ij < / i / j 1 1 5 X i2 (1 < / i ) + 2 i j V X HT = 2 2 X HT = 2 V M M / ij i =1 j > i / i / j i =1 / i X 1 X 2 / 12 < / 1/ 2 X 22 1 X 12 ( ) (1 < / 2 ) + 2 < + 1 / 1 2 2 2 = 9,458 / / M / / / 1 2 1 2 12

83

( )

con lo que se tiene:


V X HT 9,458 = = = 0,66 A 66% C X v HT 4,614 X
HT

Se observa que el error relativo de muestreo es del 66%. A continuacin se realiza una estimacin por intervalos al 95% de confianza.
) = 4,614 1,96 9,458 = [ <1.414 , 10 .6414 ] A 95 % confianza h V (X X HT _ HT

A continuacin se presentan los resultados automatizados con Excel.

84

Muestreo estadstico. Conceptos y problemas resueltos

2.8.

Resolver el problema anterior suponiendo que se selecciona una muestra de tamao 2 sin reposicin utilizando el estimador de Murthy. Murthy mejor un mtodo anterior de Des Raj extrayendo unidades sucesivas para la muestra con probabilidades Pi, Pj(1<Pi), Pk(1<Pi<Pj) y as sucesivamente. Propuso el estimador del total:

= X M

P( S / i) X
i =1

P( S )

X = , V M

( )

1 P( S ) 2

Xi X j [P( S ) P( S / i, j ) < P( S / i) P( S / j )]Pi Pj < P P i =1 j > i i j


n n

P(S) = Probabilidad incondicional de obtener la muestra S. P(S/i) = Probabilidad de obtener la muestra S condicionado a que se sac la unidad i la primera P(S/i,j) = Probabilidad de S condicionado a que se sacaron las unidades i y j las dos primeras. Para n=2 se tiene que P(S/i) = Pj/(1<Pi) y P(S) = /ij = PiPj(2<Pi<Pj)/(1<Pi)(1<Pj) y adems:
Pj (1< P 1< Pj )( 1< P X Xj Xi 1 i )( i <P j ) Xi = < j / i = Pi 1+ (1< Pj ) + (1< P , V(XM ) = X M i) 2 P P (2 < P Pj P 2< P i <P j) j i <P j i j &i 1< Pj i
2

En nuestro problema, para realizar la primera extraccin con probabilidad Pi proporcional a su tamao Mi, aplicamos el mtodo de Lahiri seleccionando pares de nmeros aleatorios (i,j) con 1 ) i ) 15 y 0 ) j ) Mx(Mi)=100 hasta que j ) Mi, con lo que resulta elegida la unidad u10 despus de dos intentos. Para realizar la segunda extraccin con probabilidad Pj/(1<Pi) aplicamos otra vez el mtodo de Lahiri seleccionando pares de nmeros aleatorios ( i,j) con 1 ) i ) 15 y 0) j ) Mx(Pj/(1<Pi)) = 0,15456 hasta que j ) Pj/(1-Pi), con lo que resulta elegida la unidad u2 despus de tres intentos. Las tablas siguientes ilustran las frmulas con Excel y los resultados obtenidos.

Muestreo estadstico: conceptos, estimadores y su distribucin

85

La muestra estar formada por los grupos {10, 2} cuyos tamaos son los siguientes:
Grupos ( Muestra) Tamaos ( M i ) 10 2 34 33

y el nmero total de horas semanales empleadas por los estudiantes de esos grupos para estudiar la materia Introduccin a la Estadstica es el siguiente:
Grupos ( Muestra) Horas ( X i ) 10 2 120 203

A continuacin se realiza la estimacin del promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica utilizando el estimador de Murthy. En la siguiente tabla se presentan todos los clculos necesarios para realizar la estimacin (N = 15, n = 2).
Mi MUESTRA 10 2 /i Pi=Mi/M Xi 34 0,05255 0,055375 33 0,051005 0,053834 ESTIMADOR Xi/Pi DEL TOTAL 120 2283,5294 3131,088537 203 3980,0303

Xj Xi 1 1 = 1 X = 1 + (1 < Pi ) 3131,088 = 4,839 X (1 < Pj ) = HT HT M M 2 < Pi < Pj Pi Pj 647

Por lo tanto, se estima que el promedio de horas semanales que dedican los estudiantes a la materia de Introduccin a la Estadstica es 4,8 horas. A continuacin hallamos el error de esta estimacin a travs de la estimacin de la varianza.
2 (1 < Pi )(1 < Pj )(1 < Pi < Pj ) X i X j 1 1 = 1 2 1223240 < ,6 = 2,92 V X HT = 2 V X HT = 2 2 M (2 < Pi < Pj ) M Pi Pj 647

( )

86

Muestreo estadstico. Conceptos y problemas resueltos

con lo que se tiene:


V X HT 2,92 = = = 0,3532 A 35% C X v HT 4,839 X
HT

Se observa que el error relativo de muestreo es del 35%. A continuacin se realiza una estimacin por intervalos al 95% de confianza.
) = 4,839 1,96 2,92 = [ <1.48, 8.18] A 95 % confianza h V (X X HT _ HT

A continuacin se presentan los resultados y frmulas con Excel.

Muestreo estadstico: conceptos, estimadores y su distribucin

87

2.9.

En una regin montaosa de 25000 hectreas se trata de estudiar la superficie dedicada a la plantacin de pinos. La regin de divide en 100 zonas disjuntas lo ms similares entre s, de tal forma que cada zona contiene plantas de todas las clases que crecen en la regin. Se extrae una muestra de 10 zonas con reemplazamiento y con probabilidades proporcionales a sus superficies. Las proporciones de superficie total dedicadas a la plantacin de pinos en cada una de las zonas de la muestra son: 0.05, 0.25, 0.10, 0.30, 0.15, 0.25, 0.35, 0.25, 0.10 y 0.20 Se pide: 1) Un estimador insesgado de la superficie total de la regin dedicada a la plantacin de pinos, su error relativo y un intervalo de confianza al nivel _ = 0,05. 2) Contestar a las mismas preguntas del apartado anterior suponiendo que la seleccin es sin reposicin mediante el mtodo de Ikeda. En este caso considerar la muestra con slo tres zonas de igual superficie (250 hectreas) para las que las proporciones de superficie total dedicadas a la plantacin de pinos en cada una de ellas son 0.25, 0.35 y 0.40, respectivamente. Se supone en este caso que las 100 zonas de la poblacin son de igual superficie. Considerando muestreo con reposicin (CR) y seleccin con probabilidades proporcionales a los tamaos (PPT), el esquema del problema es el siguiente:

M2 PPT CR

X1/M1 0,05 X4/M4 0,30 X8/M8 0,25

X2/M2 0,25 X5/M5 0,15 X9/M9 0,10

X3/M3 0,10 X6/M6 X7/M7 0,25 0,35 X10/M10 0,20 n = 20

M100 N = 100

M1 M = 25000

88

Muestreo estadstico. Conceptos y problemas resueltos

Sea Mi = Superficie de la zona i-sima Sea Xi = Superficie dedicada a la plantacin de pinos


n n = Xi = Xi = M X HH M n i =1 nP i =1 i n i M
2

M
i =1

Xi
i

25000 (0,05 + 0,25 + L + 0,20) = 5000 10

n n Xi Xi X M i < X X X < < HH HH HH Mi i =1 P i =1 M i M i =1 i (X )= V = = = HH n(n < 1) n(n < 1) n(n < 1) n

(25000u 0,05 < 5000) 2 + (25000u 0,25 < 5000) 2 + L + (25000u 0,20 < 5000) 2 = 590278 10(10 < 1)

v( X ) = V ( X ) = 590278 = 0,15 (15%) C 5000 X

La estimacin por intervalos suponiendo normalidad en la poblacin es:


h m X _ ( X ) = 5000 2 590278 = [3464, 6536]

La estimacin por intervalos sin normalidad en la poblacin es:


) (X 590278 m X = 5000 = [1564, 8346] 0,05 _

Para resolver el segundo apartado del problema consideramos la muestra con slo tres zonas de igual superficie (M1 = M2 = M3 = 250) para las que las proporciones de superficie total dedicadas a la plantacin de pinos en cada una de ellas son de 0,25, 0,35 y 0,40, respectivamente. Como los Pi son proporcionales a las superficies de las zonas se tiene:
M 250 = 0,01 (i = 1,2,3 j = 1,2,3) P = i = i M 25000 X1 X1 = = 0,25 X 1 = 62,5 M 1 250 / i = Pi + n < 1 (1 < Pi ) = 0,01 + 2 u 0,9 = 0,028 99 N <1 X2 X = 2 = 0,35 X 2 = 87,5 P + Pj n<2 M 2 250 / ij = (n < 1) [( N < n) u i + ]= ( N < 1) N <2 N <2 X3 X3 = = 0,40 X 3 = 100 M 3 250 = (3 < 1) [(100 < 3) u 0,02 + 3 < 2 ] = 0,006 100 < 2 100 < 2 (100 < 1)
n = Xi = Sin reposicin X HT i =1

/i

1 (62,5 + 87,5 + 100) = 8928,6 0,028

Muestreo estadstico: conceptos, estimadores y su distribucin


n / < / i/ j Xi X j ij < + / ( 1 ) 2 i / ij i< j / i / j 2

89

n Xi (X ) = V HT i =1 / i

= 49429600

v( X ) = C

49429600 = 0,78 8928,6

h m X _ ( X ) = [< 5122.6, 22989.8]

2.10.

Una gran empresa tiene sus inventarios de equipo listados separadamente en 15 departamentos. Se selecciona una muestra de tres departamentos con reposicin y probabilidades proporcionales al nmero de artculos de equipo en cada departamento. La tabla siguiente presenta el nmero de artculos de equipo NA en cada departamento D.
D 1 2 3 NA D 12 4 9 5 27 6 NA D 40 7 35 8 15 9 NA D NA D NA 18 10 22 13 16 10 11 22 14 33 31 12 19 15 6

a) Suponiendo que los tres departamentos seleccionados (que sern los de mayor probabilidad) tienen cada uno 2 artculos impropiamente identificados, estimar el nmero total de artculos impropiamente identificados en la empresa y su error relativo de muestreo. b) Estimar por intervalos al 95% la media de artculos propiamente identificados, sabiendo que los tres departamentos seleccionados tienen respectivamente 4, 5 y 6 artculos impropiamente identificados. Qu estimador es mejor? El esquema del problema es el siguiente:

M1=12 M4=40 M7=18

M2 = 9 M5 = 35

M3 =10 M4=40 M6 =15 PPT CR M14=33 M5=35 A1 = 2 P 1=2/40 A 2 = 2 A3=2

M8 = 10 M9 =31

P 2=2/35 P3= 2

33

M10=22 M11= 22 M12 =19 M13=16 M14= 33 M15 =6 N = 15, M=315

n=3

Como se selecciona la muestra de tres departamentos con probabilidades PPT proporcionales al nmero de artculos de equipo en cada departamento, los tres departamentos seleccionados para la muestra sern el 4, el 5 y el 14, ya que son los que van a tener mayor probabilidad de seleccin (por tener el mayor nmero de artculos). Al ser la seleccin con probabilidades proporcionales a los tamaos, se tiene que Pi = M i / M , con lo que:
P1 = 40 35 33 , P2 = y P3 = 315 315 315

90

Muestreo estadstico. Conceptos y problemas resueltos

Como el muestreo es con reposicin, el estimador insesgado del total de la clase de los artculos impropiamene clasificados vendr dado por la frmula de Hansen y Hurwitz.
n n Ai M i Pi 1 n M i Pi M = A = = = HH n i Mi M n i nP i n Mi M i

P =
i i

= proporcin muestral en el conglomerado i-simo. P i

315 2 2 2 + 18 + 3 40 35 33

Como estamos en muestreo con reposicin y probabilidades desiguales proporcionales a los tamaos, utilizamos para estimar la varianza la siguiente expresin:
Ai <A i Pi = V A = n (n < 1)
n 2 n M i Pi < MP M 2 Pi < P Pi i = i n (n < 1) n (n < 1) n 2

()

315 2 3u2

2 2 2 2 18 18 18 2 2 < < < + + = 1,04209 35 315 33 315 40 315

Para estimar la proporcin de artculos propiamente identificados observamos que los tres departamentos seleccionados para la muestra (el 4, el 5 y el 14) tienen 36, 30 y 27 artculos propiamente identificados respectivamente. El estimador ser el siguiente:
= 1 = 1 A P HH HH M M
n i

nP
i 2

Ai

1 M M n

= P = + + = 0,858 P 3 40 35 33 n
i i i i

1 36

30

27

= P = 1 V A V M2

()

()

) (P < P
i

n(n < 1)

2 2 2 1 36 30 27 = < 0,858 + < 0,858 + < 0,858 = 0,000558 3u 2 35 33 40

El intervalo de confianza al 95%, suponiendo normalidad, ser:

h V (P ) = 0,858 1,96 0,000558 = [0.8117, 0.9043] P _

2.11.

Un gran banco que tiene 1000 sucursales con cuarenta microordenadores en cada una, emprende un proceso de auditora informtica. Para ello se extrae una muestra sin reposicin y probabilidades iguales de 20 sucursales, resultando que en nueve de ellas no hay microordenadores con defectos, en ocho hay un ordenador defectuoso y en tres hay dos ordenadores defectuosos. Se pide: 1) Estimar el nmero total de microordenadores defectuosos en el banco y sus errores absoluto y relativo de muestreo. Realizar la estimacin por intervalos al 99% (F-1(0,995) = 2,57). 2) Resolver el problema con reposicin y comparar los resultados con los del apartado primero.

Muestreo estadstico: conceptos, estimadores y su distribucin

91

Tenemos como datos N = 1000, M = 40000 y n = 20. Como el muestreo es sin reposicin, el total de microordenadores defectuosos puede estimarse mediante el estimador de Horvitz y Thompson. Adems, al ser el muestreo con probabilidades iguales tenemos que /i = n/N = 20/1000 = 0,02 y /ij = 20(20-1)/[1000(1000-1)] = 0,00038. Se tiene:
25 Ai 9 u 0 + 8 u 1 + 3 u 2 = A = = 700 HT 0,02 i =1 / i

La varianza se estima de la siguiente forma:


2 20 20 20 / < / i/ j Ai Aj = Ai (1 < / ) + 2 A ij V HT i 2 / i =1 / i i =1 j >i / i / j ij

( )

1 < 0,02 20 2 2(0,00038< 0,022 ) 20 20 = Ai + Ai Aj 2 0,022 u 0 , 02 0 , 00038 i = i = j > i 1 1

9 8 3 2450(9 u 02 + 8 u 12 + 3 u 22 ) < 263,15 2 2 2 (0 u 0) + 9 u 8(0 u 1) + 9 u 3(0 u 2) + (1u 1) + 8 u 3(1u 2) + (2 u 2) = 25842 ,1

Ahora calculamos el error relativo.


v( A ) = V ( A) = 25842,1 = 0,2296 (22,96%) C 700 A

La estimacin por intervalos suponiendo normalidad en la poblacin es:


h m A _ ( A) = 700 2.57 25842,1 = [286.86, 1113.14]

La estimacin por intervalos sin normalidad en la poblacin es:


) (A m A = 700 25842,1 = [< 907.55, 2307.55] 0,01

Para muestreo sin reposicin, para estimar la varianza podramos haber tomado el estimador de Yates y Grundy:
2 20 ) = / i / j < / ij Ai < A j = 0,02 < 0,00038 (A < A )2 = (A V HT i j 2 / 0,00038 u 0,02 i < j / ij i< j i /j 20 2

= 131,58 9 u 8(0 < 1) + 9 u 3(0 < 2 ) L + 8 u 3(1 < 2) 2 = 26842,3


2 2

Se observa que el estimador de Yates y Grundy sobreestima la varianza en este caso. Cuando el muestreo es con reposicin, el total de microordenadores defectuosos puede estimarse mediante el estimador de Hansen y Hurwitz. Adems, al ser el muestreo con probabilidades iguales, Pi = 1/N y tendremos:

92

Muestreo estadstico. Conceptos y problemas resueltos


n n Ai Ai N = A = = HH 1 n i nP i i n N n i

1000 (9 u 0 + 8 u 1 + 3 u 2) = 700 20

La varianza se estima de la siguiente forma:


Ai <A P i i = = A V n (n < 1)
n 2

()

Ai < 700 i 1/ N = n (n < 1)


n

(1000 A
i =1

20

< 700 )

20 (20 < 1)

100 2 (10 Ai < 7 )


i =1

20

380

1000 2 2 2 9 (10 u 0 < 7 ) + 8 (10 u 1 < 7 ) + 3(10 u 2 < 7 ) = 26842 ,1 38

v( A ) = V ( A) = 26842,1 = 0,234 (23,4%) C 700 A

La estimacin por intervalos suponiendo normalidad en la poblacin es:


h m A _ ( A) = 700 2.57 26842,1 = [283.2, 1116.8]

La estimacin por intervalos sin normalidad en la poblacin es:


) (A m = 700 A 26842,1 = [< 921.9, 2321.9] 0,01

Las operaciones anteriores totalmente desarrolladas se muestran a continuacin.


v( A ) = V ( A) = 26842,3 = 0,234 (23,4%) C 700 A

La estimacin por intervalos suponiendo normalidad en la poblacin es:

h m A _ ( A) = 700 2.57 26842,1 = [279, 1121]


La estimacin por intervalos sin normalidad en la poblacin es:

) (A 26842,1 m = 700 = [< 938.35, 2338.35] A 0,01 _


Se observa que los errores de muestreo estimados son ligeramente superiores en muestreo con reposicin. Adems, como es natural, los intervalos de confianza son ms anchos (o sea, peores) en muestreo con reposicin. La ganancia en precisin es (26842,1/25842,1-1)100=3,8%, que es una cantidad pequea. Tambin se observa que el estimador de Yates y Grundy para muestreo sin reposicin sobreestima la varianza hasta hacerla incluso mayor que en el caso de con reposicin (debido a la baja ganancia en precisin del muestreo sin reposicin).

Muestreo estadstico: conceptos, estimadores y su distribucin

93

2.12.

Generar una muestra de tamao 50 de cada una de las siguientes distribuciones: a) Uniforme entre 10 y 20 b) Poisson con h=1 Calcular la media aritmtica en cada muestra y realizar un histograma para sus valores comentando los resultados. Para obtener muestras aleatorias segn una distribucin dada es necesario utilizar una herramienta adecuada. Antiguamente se usaban tablas de nmeros aleatorios, pero en la actualidad cualquier software estadstico dispone de esta funcionalidad. Por ejemplo, Excel dispone de dos funciones para seleccin de nmeros aleatorios uniformemente con reposicin. La funcin ALEATORIO( ) devuelve un nmero aleatorio mayor o igual que 0 y menor que 1, distribuido uniformemente. Cada vez que se calcula la hoja de clculo, se devuelve un nmero aleatorio nuevo. Si desea usar ALEATORIO para generar un nmero aleatorio, pero no desea que los nmeros cambien cada vez que se calcule la celda, puede escribir =ALEATORIO( ) en la barra de frmulas y, despus, pulsar la tecla F9 para cambiar la frmula a un nmero aleatorio. Para generar un nmero real aleatorio entre a y b, use: ALEATORIO( )*(b-a)+a. No obstante, la funcin ALEATORIO.ENTRE(a,b) devuelve un nmero entero aleatorio uniforme entre los nmeros a y b Por otra parte, Excel permite obtener nmeros aleatorios independientes extrados segn una distribucin dada utilizando herramientas de anlisis. Si en el cuadro de dilogo Anlisis de datos de la Figura 2-1 elegimos Generacin de nmeros aleatorios, se obtiene el cuadro de dilogo Generacin de nmeros aleatorios de la Figura 2-2. En el cuadro Nmeros de variables introduzca el nmero de columnas de valores que desee incluir en la tabla de resultados. Si no introduce ningn nmero, Microsoft Excel rellenar todas las columnas del rango de salida que se haya especificado. En el cuadro Cantidad de nmeros aleatorios introduzca el nmero de puntos de datos que desee ver. Cada punto de datos aparecer en una fila de la tabla de resultados. Si no introduce ningn nmero, Microsoft Excel rellenar todas las columnas del rango de salida que se haya especificado. En el cuadro Distribucin haga clic en la distribucin estadstica que desee utilizar para crear los valores aleatorios.

Figura 2-1 Las distribuciones posibles son:

Figura 2-2

Uniforme: Caracterizada por los lmites inferior y superior. Se extraen las variables con probabilidades iguales de todos los valores del rango. Una aplicacin normal utilizar una distribucin uniforme en el rango 0...1.

94

Muestreo estadstico. Conceptos y problemas resueltos

Normal: Caracterizada por una media y una desviacin estndar. Una aplicacin normal utilizar una media de 0 y una desviacin estndar de 1 para la distribucin estndar normal. Bernoulli: Caracterizada por la probabilidad de xito (valor p) en un ensayo dado. La variables aleatorias de Bernoulli tienen el valor 0 o 1; por ejemplo, puede trazarse una variable aleatoria uniforme en el rango 0...1. Si la variable es menor o igual que la probabilidad de xito, se asignar el valor 1 a la variable aleatoria de Bernoulli; en caso contrario, se le asignar el valor 0. Binomial: Caracterizada por una probabilidad de xito (valor p) durante un nmero de pruebas; por ejemplo, se pueden generar variables aleatorias Bernoulli de nmero de pruebas, cuya suma ser una variable aleatoria binomial. Poisson: Caracterizada por un valor lambda, igual a 1/media. La distribucin de Poisson se utiliza con frecuencia para caracterizar el nmero de incidencias por unidad de tiempo; por ejemplo, el ritmo promedio al que llegan los vehculos a una garita de peaje. Frecuencia relativa: Caracterizada por un lmite inferior y superior, un incremento, un porcentaje de repeticin para valores y un ritmo de repeticin de la secuencia. Discreta: Caracterizada por un valor y el rango de probabilidades asociado. El rango debe contener dos columnas. La columna izquierda deber contener valores y la derecha probabilidades asociadas con el valor de esa fila. La suma de las probabilidades deber ser 1. En el campo Parmetros introduzca un valor o valores para caracterizar la distribucin seleccionada. En el campo Iniciar con escriba un valor opcional a partir del cual se generarn nmeros aleatorios. Podr volver a utilizar este valor para generar los mismos nmeros aleatorios ms adelante. En el cuadro Rango de salida introduzca la referencia correspondiente a la celda superior izquierda de la tabla de resultados. Microsoft Excel determinar el tamao del rea de resultados y mostrar un mensaje si la tabla de resultados reemplaza datos ya existentes. Haga clic en la opcin En una hoja nueva para insertar una hoja nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja de clculo. Para asignar un nombre a la nueva hoja de clculo, escrbalo en el cuadro. Haga clic en la opcin En un libro nuevo para crear un nuevo libro y pegar los resultados en una hoja nueva del libro creado. En la Figura 2-3 se muestra la salida correspondiente a las opciones de Generacin de nmeros aleatorios de la Figura 2-2 (10 nmeros aleatorios normales de media cero y varianza 1 con semilla 50).

Figura 2-3 Adicionalmente, Excel permite obtener una muestra aleatoria simple con reposicin de una poblacin numrica dada como rango de entrada. Si en el cuadro de dilogo Anlisis de datos de la Figura 2-4 elegimos Muestra, se obtiene el cuadro de dilogo Muestra de la Figura 2-5. A continuacin se explica la funcionalidad de todos los campos del cuadro de dilogo Muestra.

Muestreo estadstico: conceptos, estimadores y su distribucin

95

Figura 2-4

Figura 2-5

Figura 2-6

Rango de entrada: Introduzca la referencia correspondiente al rango de datos que contenga la poblacin de valores de los que desee extraer una muestra. Microsoft Excel extraer muestras de la primera columna, luego de la segunda y as sucesivamente. Rtulos: Active esta casilla si la primera fila y la primera columna del rango de entrada contienen rtulos. Desactvela si el rango de entrada carece de rtulos; Excel generar los rtulos de datos correspondientes para la tabla de resultados. Mtodo de muestreo: Haga clic en Peridico o Aleatorio para indicar el intervalo de muestreo que desee. Perodo: Introduzca el intervalo peridico en el que desee realizar la muestra. El valor n del perodo del rango de entrada y cada valor n del perodo siguiente se copiarn en la columna de resultados. El muestreo terminar cuando se llegue al final del rango de entrada. Nmero de muestras: Introduzca el nmero de valores aleatorios que desee en la columna de resultados. Cada valor se extrae de una posicin aleatoria del rango de entrada y puede seleccionarse cualquier nmero ms de una vez. Rango de salida: Introduzca la referencia correspondiente a la celda superior izquierda de la tabla de resultados. Los datos se escribirn en una sola columna debajo de la celda. Si selecciona Peridico, el nmero de valores de la tabla de resultados ser igual al nmero de valores del rango de entrada, dividido por la tasa de muestreo. Si selecciona Aleatorio, el nmero de valores de la tabla de resultados ser igual al nmero de muestras.

96

Muestreo estadstico. Conceptos y problemas resueltos

En una hoja nueva: Haga clic en esta opcin para insertar una hoja nueva en el libro actual y pegar los resultados comenzando por la celda A1 de la nueva hoja de clculo. Para darle un nombre a la nueva hoja de clculo, escrbalo en el cuadro. En un libro nuevo: Haga clic en esta opcin para crear un nuevo libro y pegar los resultados en una hoja nueva del libro creado. Al pulsar Aceptar en la Figura 2-5, se obtiene la muestra aleatoria simple de tamao 10 con reposicin de la columna C de la Figura 2-6, que ha sido extrada de la poblacin de 22 elementos de la columna B. Si la muestra se quiere sin reposicin, se utiliza este mismo procedimiento hasta obtener tantos elementos distintos como tamao muestral se requiera. Centrndonos ya en nuestro problema particular, seleccionaremos nuestra primera muestra de tamao 50 aleatoria uniforme de valores entre 10 y 20. Para ello, situamos la funcin ALEATORIO( )*(20-10)+10 en una casilla de Excel y arrastramos esta frmula 50 casillas hacia abajo. Para seleccionar la muestra de Poisson, en Herramientas A Anlisis de datos elegimos Generacin de nmeros aleatorios y rellenamos la pantalla de entrada como se indica en la Figura 2-7. Al pulsar Aceptar se obtiene la columna de 50 nmeros aleatorios de Poisson con h = 2. Con las funciones PROMEDIO(A2:A51) y PROMEDIO(B2:B51) calculamos las medias de ambas columnas de nmeros aleatorios obteniendo como resultado nmeros cercanos a 15 y 2, que son el centro del intervalo en la distribucin uniforme y el parmetro de la distribucin de Poisson, respectivamente.

Figura 2-7 Para representar los histograma de frecuencias de cada muestra, en Herramientas A Anlisis de datos (Figura 2-8) elegimos Histograma y rellenamos la pantalla de entrada como se indica en las Figuras 2-9 y 2-10. Al pulsar Aceptar se obtienen los histogramas de frecuencias. La Figura 2-11 presenta las dos series de nmeros aleatorios con sus distribuciones de frecuencias y sus histogramas. Se observa que el histograma de la distribucin de Poisson se acerca mucho a una normal.

Muestreo estadstico: conceptos, estimadores y su distribucin

97

Figura 2-8

Figura 2-9

Figura 2-10

Figura 2-11

98

Muestreo estadstico. Conceptos y problemas resueltos

2.13.

Sea la poblacin {U1, U2, U3} en la que se conocen los valores de una determinada variable X: X(U1)=2 X(U2)=3 y X(U3)=6. Se seleccionan dos unidades sin reemplazamiento con probabilidades proporcionales a los valores de la variable X en cada extraccin, resultando elegidas las unidades U1 y U3. Se pide: 1) Calcular la estimacin puntual lineal insesgada para el total de la variable X. 2) Calcular la estimacin por intervalos al 95% para el total de la variable X (poblacin normal). Como el muestreo es con probabilidades proporcionales a los nmeros 2, 3 y 6, tenemos que las probabilidades iniciales de seleccin de cada unidad poblacional para la muestra son Pi = Mi/Mi, es decir: 2/11, 3/11 y 6/11. Como el mtodo es sin reposicin tomamos como estimador del total el estimador de Horwitz y Thompson y tenemos:

/ i = Pi / 1 = (2 / 11)

3 1 < 2 Pi P + i i =1 1 < P i 1 < Pi

2 / 11 3 / 11 6 / 11 1 < 2( 2 / 11) + + + = 0,468 1 < 2 / 11 1 < 3 / 11 1 < 6 / 11 1 < 2 / 11 2 / 11 3 / 11 6 / 11 1 < 2(3 / 11) + + + = 0,660 1 < 2 / 11 1 < 3 / 11 1 < 6 / 11 1 < 3 / 11 2 / 11 3 / 11 6 / 11 1 < 2(6 / 11) + + + = 0,871 1 < 2 / 11 1 < 3 / 11 1 < 6 / 11 1 < 6 / 11
2 = Xi = X HT i =1

/ 2 = (3 / 11)

/ 3 = (6 / 11)

/i

2 6 + = 11,16 0,468 0,871

Para estimar la varianza necesitamos el valor de /12. Tenemos:

/12 = P(U1U3)=P(U1)P(U3/U1)+P(U3)P(U1/U3)=(2/11)(6/9)+(6/11)(2/5)=0,34
El valor anterior puede calculase tambin mediante:

/ ij = Pi Pj

1 1 + 1 < P 1 < P i j

2 6 1 1 = + =0,34 11 11 1 < 2 / 11 1 < 6 / 11

2 2 2 / < / i / j 4(1 < 0,468) 36(1 < 0,871) X i2 Xi X j X ij = ( ) < + / + + V 1 2 HT = i 2 / 0,468 2 0,8712 i =1 / i i =1 j > i / i / j ij 0,34 < (0,468)(0,871) 2 6 +2 u u = 15,837 < 11,711 = 4,126 0,468 0,871 0,34

( )

El error relativo de muestreo ser

) m (X HT X HT

u 100 =

4,126 u 100 A 18,2% 22

La estimacin por intervalos suponiendo normalidad en la poblacin es:


h m X _ ( X ) = 11,16 1,96 4,126 = [7.17, 15.14]

Muestreo estadstico: conceptos, estimadores y su distribucin

99

2.14.

Consideremos una regin con N = 3 municipios con una poblacin de 3, 5 y 7 miles de habitantes cada uno. Sabemos que la variable X = Nmero de mujeres en cada municipio toma los valores 1, 3, y 4 (en miles). Para estudiar el nmero medio de mujeres en la regin se toman muestras de dos municipios con probabilidades proporcionales a sus tamaos sin reposicin y sin tener en cuenta el orden de colocacin de sus elementos utilizando el mtodo de Brewer. A partir de las distribuciones en el muestreo de X HT y V ( X HT ) , hallar V ( X HT ) , E ( X HT ) y E (V ( X HT )) . Comentar los resultados. Como estamos ante un mtodo de seleccin de unidades primarias compuestas con probabilidades iniciales proporcionales a los tamaos 3, 5 y 7, dichas probabilidades sern {3/15, 5/15, 7/15}. Como no hay reposicin y las probabilidades son desiguales, utilizamos el estimador de Horwitz y Thompson. Dado que el mtodo de seleccin es el de Brewer tenemos:

/i = nPi = 2Pi , / ij =

1 2 Pi Pj 1 * + N Pi 1 < 2 Pi 1 < 2 Pj 1+ i =1 1 < 2 Pi

Dado que el mtodo es sin reposicin y no importa el orden de colocacin de los elementos en las muestras, el espacio muestral est constituido por la muestras (u1,u2), (u1,u3) y (u2,u3) con P1= p(u1) =3 /15, P2 = p(u2) = 5/15 y P3 = p(u3) = 7/15. La distribucin en el muestreo (con el esquema de seleccin de Brewer) del estimador de Horvitz y Thompson y del estimador de su varianza, as como el espacio muestral y las probabilidades asociadas a las muestras se presentan en el siguiente cuadro:
X1 1 1 3 X2 3 4 4

/i
6 15 10 15 14 15

/ ij
1 15 5 15 9 15

X1 X2 + X HT = 2 P1 2 P2 7 95 14 123 14

X1 X (X ) = / 1/ 2 < / 12 + 2 V YG HT / 12 /2 /1 12 0 ,38265 0 , 00170

(X ) podemos calcular su esperanza y su V A partir de las distribuciones de X HT HT y varianza de la siguiente forma:


) = 7(1/15)+(95/14)(5/15)+(123/14)(9/15) = 8 E( X HT V( X ) = (7-8)2(1/15 -8)2+(95/14 -8)2(5/15 -8)2+(123/14 -8)2(9/15) = 0,9285

(X ) ) = (12-0,9285)2(1/15)+(0,38265-0,9285)2 (5/15)+(0,0017-0,9285)2 (9/15) = 8,768 V( V HT


) = 0.9285 y estimador de Horwitz y Thompson es insesgado. Tambin se tiene que V ( X HT

(X ) ) = 12(1/15)+0,38265(5/15)+0,0017(9/15) = 0,9285 E( V HT

HT

) = 8 = X, con lo que se comprueba que el Segn el resultado anterior se tiene E ( X HT

(X )) = 0,9285 = V ( X ) , con lo que se comprueba que el estimador de la varianza es E (V HT HT

insesgado.

100 Muestreo estadstico. Conceptos y problemas resueltos

2.15.

Resolver el problema anterior considerando ahora el esquema de seleccin de probabilidades gradualmente variables de Snchez Crespo y Gabeiras con probabilidades iniciales de seleccin de las unidades {1/6, 1/3, 1/2}. Comparar los resultados con los obtenidos utilizando muestreo con reposicin sin tener en cuenta el orden de colocacin de los elementos en las muestras. Segn el esquema de probabilidades gradualmente variables, se puede suponer que existen seis bolas en una urna de las que una bola representa a la unidad u1, dos bolas representan a la unidad u2 y tres bolas representan a la unidad u3, ya que P1 = p(u1) = 1/6, P2 = p(u2) = 1/3 = 2/6 y P3 = p(u3) = 1/2 = 3/6. En cada seleccin se extrae una nica bola que no se repone a la urna para seleccionar la siguiente bola, con lo que al seleccionar la segunda bola falta una bola de la urna. Segn este esquema, el espacio muestral y las probabilidades asociadas a las muestras sern:
S(X ) (u 1 , u 2 ) (u 1 , u 3 ) (u 2 , u 2 ) (u 2 , u 3 ) (u 3 , u 3 ) P (u i , u j ) = 1 1 u 6 5 1 3 u 6 5 2 1 u 6 5 2 3 u 6 5 3 2 u 6 5 P (u i ) P (u j / u i ) + P (u j ) P (u i / u j ) 2 1 2 + u = = 0 ,13333333 6 5 15 3 1 3 + u = = 0,2 6 5 15 1 = = 0 , 06666666 15 3 2 6 + u = = 0,4 6 5 15 3 = = 0,2 15

El estimador insesgado para el total de Snchez Crespo y Gabeiras es:


n Xi X X = 1 + 2 X SCG = 2 P1 2 P2 i =1 nP i

2 2 X 32 X2 M < n 1 n X i2 6 < 2 1 X1 2 + + < 82 X Su varianza es V X = = < HT M < 1 n i =1 Pi 6 <1 2 P P2 P3 1

( )

El estimador insesgado de la varianza vale:


n X 2 X 2 X 2 1 2 i (X ) = M < n 1 2 2 = 6 < 2 1 < + V n X < 2X SCG SCG SCG M n(n <1) i =1 P P 6 2(2 <1) P i 1 2

El cuadro del diseo muestral completo sera el siguiente:


X1 1 1 3 3 4 X2 3 4 3 4 4

/ ij
0 ,1333 0,2 0 , 0666 0,4 0,2

X1 X X + 2 SCG = 2 P1 2 P2 7 ,5 7 9 8 ,5 8

2 2 X2 1 X 1 (X 2 V ) + = SCG P < 2 X SCG P 3 2 1 1,5 0 , 6666 0 0 ,1666 0

Muestreo estadstico: conceptos, estimadores y su distribucin

101

) = (7,5)0,1333 + + 8(0,2) = 8 = X = A partir del diseo anterior se tiene E ( X SCG 1 + 3 + 4, con lo que se comprueba que el estimador de Snchez Crespo y Gabeiras es ) = (7,5-8)2(0,1333) + + (8-8)2(0,2) insesgado. Tambin se tiene a partir del diseo que V ( X SCG

(X )) = (1,5<0,4)2 (0,1333) + la varianza es insesgado. Por ltimo se tiene V (V SCG


+(0<0,4)2(0,2) = 0,24. El clculo de la varianza del estimador del total de Snchez Crespo y Gabeiras tambin puede realizarse a travs de su frmula correspondiente como sigue:
2 12 32 42 4 1 X12 X2 6 < 2 1 3 Xi2 X32 2 4 1 2 2 = 0,4 = < = + + < 8 VX X = + + < 8 SCG 6 <1 2 i =1 P P P i 1 2 3 5 2 P 5 2 1/ 6 1/ 3 1/ 2

(X )) = (1,5)0,1333 + + 0(0,2) = 0,4 = V ( X ) , con lo que el estimador de = 0.4 y E (V SCG SCG

( )

Para el caso de muestreo con reposicin sin importar el orden de colocacin de los elementos en las muestras la probabilidad de cualquier muestra ser: P(ui,uj) = P(ui)P(uj)+ P(uj)P(ui) = 2 P(ui)P(uj) y P(ui,ui) = [P(ui)]2 Las muestras posibles son (u1,u1), (u1,u2), (u1,u3), (u2,u2) (u2,u3) y (u3,u3) con P1 = p(u1) = 1/6, P2 = p(u2) = 1/3 y P3 = p(u3) = 1/2,. Como estamos en muestreo con reposicin el HH = X1/2P1 + estimador lineal insesgado para el total es el estimador de Hansen y Hurwitz ( X X2/2P2). Como estimador insesgado para la varianza se puede utilizar:
(X )= V HH n X 2 X 2 X 2 1 1 2 i 1 2 2 + < 2X <nX HH = HH n ( n < 1) i =1 Pi 2( 2 < 1) P1 P2

La distribucin en el muestreo del estimador de Hansen y Hurwitz y del estimador de su varianza, as como el espacio muestral y las probabilidades asociadas a las muestras se presentan a continuacin:
X1 1 1 1 3 3 4 X2 1 3 4 3 4 4 Pij = P ( u i , u j ) 0 ,1666 0 ,1666 0 ,1666 0 ,3333 0 ,3333 0 ,5 X1 X X + 2 HH = 2 P1 2 P2 6 7 ,5 7 9 8 ,5 8 X X2 1 (X ) = 1 2 V + HH < 2 X HH P 2 P1 2 0
2 2

2 , 25 1 0 0 , 25 0

) = 6(0,1666) + + 8(0,5) = 8 = X = 1 + 3 + 4, con lo que Segn la tabla anterior, E ( X HH se comprueba que el estimador de Hansen y Hurwitz es insesgado. Tambin se tiene que ) = (6-8)2(0,1666 + + (8-8)2(0,5) = 0,5 y E (V (X )) = 0(0,1666) + +0(0,5) = V (X HH HH 0,5 = V ( X ) , con lo que el estimador de la varianza es insesgado. Por ltimo se tiene que (X )) = (0-0,5)2(0,1666) + + (0-0,5)2(0,5) = 0,5. V (V HH
HH

102 Muestreo estadstico. Conceptos y problemas resueltos

El clculo de la varianza del estimador del total de Hansen y Hurwitz tambin puede realizarse a travs de su frmula correspondiente como sigue:
2 2 3 12 32 42 1 X12 X2 1 Xi2 X3 2 2 = 1 8 VX X = + + < 82 = 0,5 = + + < < HT 2 i =1 P P P 1 2 3 i 2 1/ 6 1/ 3 1/ 2 2 P

( )

)= Observando los resultados vemos que se cumple V ( X SCG


0,4=[(6-2)/(6-1)]0,5.

M <n ) , ya que uV ( X HH M <1

M <n (X ) = [(6-2)/6] V (X ) para u V ( X HH ) , ya que V HH SCG M todos los elementos correspondientes de las columnas consideradas en las tablas anteriores.

(X )= Adems, V SCG

) =0,4 y V X Como V ( X HT =0,5, el mtodo de seleccin con probabilidades SCG gradualmente variables con el estimador de Snchez Crespo y Gabeiras resulta ms preciso que el mtodo de seleccin con reposicin de Hansen y Hurwitz.

( )

2.16.

Supongamos que tenemos una poblacin de N = 5 nios para los que sus edades correspondientes en aos son {3, 3, 4, 6, 8} y sus pesos en kilos son {10, 16, 16, 25, 33}. Se toman muestras sin reposicin de tamao 2 de la poblacin de nios con probabilidades proporcionales a sus pesos. Se pide: 1) Obtener un etimador lineal insesgado para la edad media de los nios basado en la muestra de mayor probabilidad, as como su error de muestreo. 2) Si consideramos la seleccin de la primera unidad muestral proporcional al peso y la segunda con probabilidades iguales, obtener un estimador lineal insesgado para la edad media de los nios basado en la muestra (4,8) as como su error de muestreo. Como no se especifica nada respecto al orden de colocacin de los elementos en las muestras y el muestreo es sin reposicin, supondremos que el orden no interviene. Habr entonces

5 2 =10 muestras posibles, que son: (3,3), (3,4), (3,6), (3,8), (3,4), (3,6), (3,8), (4,6), (4,8) y (6,8).
Las probabilidades iniciales de seleccin Pi proporcionales a M1=10, M2=16, M3=16, M4=25 y M5=33 originan los siguientes valores: Pi = {M1/M=1/10, M2/M=4/25, M3/M=4/25, M4/M=1/4, M5/M=33/100}. Las probabilidades /ij se calcularn de la siguiente forma:
x )) = P (u i D 1 E u j D 2 ) + P (u j D 1 E u i D 2 ) / ij = P((u i u j ) D ( ~ = P (u i D 1 ) P (u j D 2 / u i D 1 ) + P (u j D 1 ) P (u i D 2 / u j D 1 ) = 1 Mj Mj Pj Mi Mi P 1 u + u = Pi u + Pj u i = Pi Pj + M M < Mi M M <Mj 1 < Pi 1 < Pj 1 < Pi 1 < Pj

Y como ya conocemos las Pi, para calcular las probabilidades /ij basta sustituir en la frmula anterior. Tambin es posible el clculo como sigue: (M2/M)(M1/(M-M2)) = (1/10)(16/90) + (4/25)(10/84) = 0,0368

/11 = P(3,3) = P(3D1)P(3D2/3D1) + P(3D1)P(3D2/3D1) = (M1/M)(M2/(M-M1)) +

Muestreo estadstico: conceptos, estimadores y su distribucin

103

/12 = P(3,4) = P(3D1)P(4D2/3D1) + P(4D1)P(3D2/4D1) = (M1/M)(M3/(M-M1)) +


(M3/M)(M1/(M-M3)) = (1/10)(16/90)+(4/25)(10/84) = 0,0368 (M4/M)(M1/(M-M4)) (1/10)(25/90)+(1/4)(10/75) = 0,0611

/13 = P(3,6) = P(3D1)P(6D2/3D1) + P(6D1)P(3D2/6D1) = (M1/M)(M4/(M-M1)) +


De la misma forma se obtiene /14=0,0611, /15=0,0859, /23=0,0609, /24=0,1009, /25 =0,1416, /34 =0,1009, /35 =0,1416 y /45 =0,2331 El clculo de los /i se realiza de la forma siguiente:

/1 = /12+/13+/14+/15=0,0368+0,0368+0,0611+0,0859=0,22069 /2 = /12+/23+/24+/25=0,0368+0,0609+0,1009+0,1416=0,34039 /3 = /13+/23+/34+/35=0,0368+0,0609+0,1009+0,1416=0,34039 /4 = /14+/24+/34+/45=0,0611+0,1009+0,1009+0,2331=0,49614 /5 = /15+/25+/35+/45=0,0859+0,1416+0,1416+0,2331=0,60237


Tambin pueden calcularse los / i mediante una expresin que los haga depender solamente de los Pi, tal y como se indica a continuacin.
x )) = P(ui D1 ) + P(ui D 2 E u j &i D1 ) = P(ui D1 ) + / i = P(ui D(~ P(ui D 2 / u j &i D1 )P(u j &i D1 ) = P(ui D1 ) + P(ui D 2 / u j D1 )P(u j D1 )
j &i

Pj P Mi P = Pi 1 < 2Pi + Pi + j Pj = Pi + i Pj = Pi 1 + j &i 1 < Pj j &i M < M j j &i 1 < Pj j &i 1 < Pj 1 < Pi N N P P 1 < 2Pi P j = P 1 < 2Pi + j = Pi 1 < 2Pi + Pi = Pi + i + i 1< P 1 < Pi 1 < Pi j &i 1 < Pj j =1 1 < Pj i 1 < Pi i =1 1 < Pi 144 4 244 4 3 = Pi +

Y como ya conocemos las Pi, para calcular las probabilidades /ij basta sustituir en la frmula anterior, con lo que se obtienen los mismos resultados. El diseo muestral ser el siguiente:
S(X ) (3,3) (3, 4) (3,6) (3,8) (3, 4) (3,6) (3,8) ( 4,6 ) ( 4,8) (6,8) P ( X ) = / ij 0,0368 0,0368 0,0611 0,0859 0,0609 0,1009 0,1416 0,1009 0,1416 0,2331 = X HT

3 / 0, 22069 + 3 / 0,34039 = 22 , 41 3 / 0, 22069 + 4 / 0,34039 = 25,34 3 / 0, 22069 + 6 / 0, 49614 = 25,69 3 / 0, 22069 3 / 0,34039 3 / 0,34039 3 / 0,34039 + 8 / 0,60237 + 4 / 0,34039 + 6 / 0, 49614 + 8 / 0,60237 = 26 ,87 = 20 ,56 = 20 ,91 = 22 ,09

/
i =1

Xi
i

2 Xi = 1 X HT N i =1 / i 4, 482 5,068 5,138

5,374 4,112 4,182 4, 418 4,768 5,006 5,074

4 / 0,34039 + 6 / 0, 49614 = 23,84 4 / 0,34039 + 8 / 0,60237 = 25,03 6 / 0, 49614 + 8 / 0,60237 = 25,37

104 Muestreo estadstico. Conceptos y problemas resueltos

Como el muestreo es sin reposicin se utiliza el estimador insesgado de Horwitz y Thompson. Para el total dicho estimador basado en la muestra de mayor probabilidad, la (6,8), vale 25,37. Para la media vale 5,074. Se estima entonces que la edad media es 5 aos. Para calcular las varianzas de estos estimadores se pueden utilizar directamente las frmulas adecuadas, o bien se puede calcular la distribucin en el muestreo de los estimadores. Para el total tenemos:
= X i (1 < / ) + 2 X i V X HT i
5 5 5 i =1

( )

Xj

/i

i =1 j >i

/i / j

(/

ij

< / i/ j ) =

X 12

/1

(1 < / 1 ) + L +

X 52

/5

(1 < / 5 ) +

32 82 X1 X 2 X4 X5 (/ 12 < / 1/ 2 ) + L + (/ 45 < / 4/ 5 ) = (1 < 0,22069) + L + (1 < 0,60237) + 2 0,60237 /4 /5 /1 / 2 0,22069 3 6 8 3 + 2 0,22069 0,34039(0,03683< 0,22069* 0,34039) + L + 0,49614 0,60237 (0,23313< 0,49614* 0,60237)
=4,25.

2 Para la media, como V X HT = N V ( X HT ) V ( X HT ) = V ( X HT ) /25 = 4,25/25 = 0,17.

( )

El estimador insesgado para la varianza basado en la muestra de mayor probabilidad (6,8) ser:
2 2 2 2 2 ( ) 2 X X (/ < / / ) X = X i (1 < / ) + 2 X i X j / ij < / i/ j = X1 (1 < / ) + X 2 (1 < / ) + 2 1 2 12 1 2 = 0,41 V 1 HT i 2 2 2 2 / / / / / / / /12 i =1 i =1 j > i 1 i i j ij 2 1 /2

( )

) =V (X ) /25 = 0,41/25 = 0,016. (X Para la media, V HT HT

Para el segundo apartado del problema las probabilidades Pi proporcionales a M1=10, M2=16, M3=16, M4=25 y M5=33 en la primera extraccin tienen los siguientes valores: P1=M1/M=1/10, P2=M2/M=4/25, P3=M3/M=4/25, P4=M4/M=1/4 y P5=M5/M=33/100. Las probabilidades iguales en segunda extraccin valdrn 1/4. Las probabilidades /ij se calcularn de la siguiente forma:

/ ij = P((u i u j ) D ( ~ x )) = P(u i D 1 E u j D 2 ) + P (u j D 1 E u i D 2 )
= P(u i D 1 ) P(u j D 2 / u i D 1 ) + P(u j D 1 ) P(u i D 2 / u j D 1 ) =
Mi 1 M j 1 1 1 Pi + Pj u + u = Pi u + Pj u = M 4 M 4 4 4 4

Calculamos ahora los / i mediante una expresin que los haga depender solamente de los Pi, tal y como se indica a continuacin.
x )) = P(u i D 1 ) + P(u i D 2 E u j &i D 1 ) / i = P(u i D ( ~ = P(u i D 1 ) + P(u i D 2 / u j &i D 1 ) P(u j &i D 1 ) = P(u i D 1 ) + P(u i D 2 / u j D 1 ) P(u j D 1 )
j &i

1 1 1 3 1 = Pi + Pj = Pi + Pj = Pi + (1 < Pi ) = Pi + 4 j &i 4 4 4 j &i 4

Muestreo estadstico: conceptos, estimadores y su distribucin

105

Se observa que estamos ante el mtodo de seleccin sin reposicin de Ikeda para el caso de tamao de muestra n=2, con lo que las / i y / ij tambin podran haberse calculado mediante las expresiones siguientes (se obtendran los mismos resultados):
n <1 n <1 N < n * Pi + = N <1 N <1 N <1

/ i = Pi + (1 < Pi ) * / ij =

n <1 N < n (Pi + Pj ) + n < 2 * N <1 N < 2 N < 2

Ya tenemos todos los datos para calcular los valores de / i y / ij , pues slo dependen de Pi

. El diseo muestral ser: y Pj que son datos. Tambin podemos calcular ya el estimador X HT
S ( X ) P( X ) = / ij = (3,3) (3,4) (3,6) (3,8) (3,4) (3,6) (3,8) (4,6) (4,8) (6,8) 0,065 0,065 0,0875 0,1075 0,08 0,1025 0,1225 0,1025 0,1225 0,145 Pi + Pj 4
2 = Xi X HT

3 / 0,325 + 3 / 0,37 = 17,34 3 / 0,325 + 4 / 0,37 = 20,04 3 / 0,325 + 6 / 0,4375 = 22,95 3 / 0,325 + 8 / 0,4975 = 25,31 3 / 0,37 + 4 / 0,37 = 18,92 3 / 0,37 + 6 / 0,4375 = 21,82 3 / 0,37 + 8 / 0,4975 = 24,19 4 / 0,37 + 6 / 0,4375 = 24,53 4 / 0,37 + 8 / 0,4975 = 26,90 6 / 0,4375 + 8 / 0,4975 = 29,8

i =1

/i

/i =

3 1 Pi + 4 4

0,325 0,37 0,37 0,4375 0,4975

Vemos que para la muestra (4,8) el estimador insesgado de Horvitz y Thompson para el total poblacional vale 26,90 y para la media 26,90/5 = 5,38. Sigue obtenindose que la edad media estimada de los nios es 5 aos aproximadamente. Para hallar la varianza del estimador del total se puede utilizar su distribucin en el muestreo o bien se puede aplicar directamente la frmula apropiada tal y como se indica a continuacin:
2 2 2 5 5 5 = X i (1 < / ) + 2 X i X j (/ < / / ) = X1 (1 < / ) + L + X 5 (1 < / ) + V X 1 ij i j 5 HT i i =1

( )

/i

i =1 j > i

/i / j

/1

/5

82 32 X1 X 2 X 4 X5 ( ) ( ) ( ) (1 < 0,4975) = < + + + 2 < + + < / / / / / / L L 1 0 , 325 45 4 5 / / 12 1 2 / 4 /5 0,4975 0,325 1 2 6 8 3 3 + 2 0,325 0,37 (0,065 < 0,325* 0,37) + L + 0,4375 0,4975(0,145 < 0,4375* 0,4975) = 12,66

El estimador insesgado para la varianza basado en la muestra (4,8) ser:

106 Muestreo estadstico. Conceptos y problemas resueltos


2 2 2 2 2 2 X1 X 2 (/12 < /1/ 2 ) X = X i (1 < / ) + 2 X i X j (/ ij < / i/ j ) = X1 (1 < / ) + X 2 (1 < / ) + 2 V HT i 1 2 2 2 2 / ij /1 /2 /12 i =1 / i i =1 j >i / i / j /1 / 2 2 2 4 8 4 8 (0,1225< 0,37 * 0,4975]) (1 < 0,37) + (1 < 0,4975) + 2 = = 43,3 2 2 0,1225 0,37 0,4975 0,37 0,4975

( )

1 Para la media se tiene que V X HT = 1,73 . X HT = V 25

( )

Para hallar el estimador insesgado para la varianza basado en la muestra (4,8) tambin se puede usar el estimador insesgado de Yates y Grundy de la forma siguiente:
2 2 2 X (/ / < / ij ) X1 X 2 (/1/ 2 < /12 ) 4 8 (0,37* 0,4975< 0,1225 ]) X = X i < j i j V = < = < =13,958 HT 0,37 0,4975 0 , 1225 / / / / / / i =1 j >i i j ij 2 12 1

( )

1 Para la media, V X HT = 0,55 X HT = V 25

( )

Se observa que para la muestra (4,8) el estimador de Yates y Grundy para la varianza del total resulta ms preciso que el estimador de la varianza de Horwitz y Thompson.

Muestreo estadstico: conceptos, estimadores y su distribucin

107

EJERCICIOS PROPUESTOS
2.1.
Supongamos que tenemos una poblacin de N = 3 unidades primarias de la que se obtienen todas las muestras posibles de tamao n = 2 con probabilidades iguales y bajo los siguientes supuestos: Muestreo sin reposicin sin intervenir el orden Muestreo sin reposicin interviniendo el orden Muestreo con reposicin sin intervenir el orden Muestreo con reposicin interviniendo el orden Se pide: Hallar el espacio muestral asociado a los cuatro tipos de muestreo y las probabilidades asociadas a las muestras. Si al medir una variable X sobre los elementos de la poblacin se obtienen los valores {1, 3, 4}, cul de todos los mtodos de muestreo es ms preciso al estimar el total poblacional mediante un estimador lineal insesgado apropiado?

2.2.

Una poblacin consta de 40000 unidades distribuidas en 400 conglomerados de 100 unidades cada uno. Una muestra aleatoria con probabilidades iguales sin reposicin de tamao 25 conglomerados presenta los siguientes datos:
Total de unidades 12 17 23 33 36 de la clase C N de conglomerados 2 3 9 5 6 de la muestra

Estimar el total y la proporcin de unidades de la poblacin que pertenecen a la clase C, as como sus errores de muestreo absolutos y relativos.

2.3.

Supongamos que tenemos una poblacin de N = 5 unidades primarias para las que una variable X medida sobre ellas proporciona los valores 3, 3, 4, 6 y 8. Se toma una muestra de tamao n = 2 sin reposicin asignando en la primera extraccin probabilidades proporcionales a los nmeros 10, 16, 16, 25 y 33, y tambin en la segunda (prescindiendo de la unidad seleccionada en primer lugar). Se pide: Calcular las probabilidades /ij (i&j) y comprobar que /i =2 para i = 1, 2, ..., 5 Comprobar tambin que

/
i =1 i& j

= n </ j y

/
i =1 i& j

ij

= (n < 1)/ j .

Obtener estimadores lineales insesgados para el total y la media (para la muestra de mayor probabilidad), as como sus errores de muestreo.

2.4.

Supongamos que tenemos una poblacin de N = 3 unidades primarias para las que una variable X medida sobre ellas proporciona los valores {1, 3, 4} con probabilidades de seleccin proporcionales a los tamaos 3, 5 y 7. Se toman muestras de tamao n=2 sin reposicin y sin tener en cuenta el orden de colocacin de los elementos mediante el mtodo de seleccin de (X ) , hallar V ( X ), y V Durbin. A partir de las distribuciones en el muestreo de X
) y E (V (X )) . Comentar los resultados. E( X HT HT
HT

HT

HT

CAPTULO MUESTREO ALEATORIO SIMPLE SIN Y CON REPOSICIN. SUBPOBLACIONES

OBJETIVOS
1. Introducir el concepto de muestreo aleatorio simple. 2. Comprender las especificaciones del muestreo aleatorio simple sin reposicin o muestreo irrestricto aleatorio. 3. Analizar el muestreo aleatorio simple sin reposicin. 4. Estudiar las estimaciones, errores y estimacin de los errores en muestreo aleatorio simple sin reposicin. 5. Especificar los factores de elevacin en muestreo aleatorio simple sin reposicin. 6. Evaluar el tamao de la muestra en muestreo aleatorio simple sin reposicin. 7. Comprender las especificaciones del muestreo aleatorio simple con reposicin. 8. Analizar el muestreo aleatorio simple con reposicin. 9. Estudiar las estimaciones, errores y estimacin de los errores en muestreo aleatorio simple con reposicin. 10. Especificar los factores de elevacin en muestreo aleatorio simple con reposicin. 11. Evaluar el tamao de la muestra en muestreo aleatorio simple con reposicin. 12. Comparar el muestreo aleatorio simple con y sin reposicin. 13. Obtener estimadores en subpoblaciones con y sin reposicin. 14. Calcular errores y estimacin de los errores en subpoblaciones con y sin reposicin.

110 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo aleatorio simple sin reposicin. Especificaciones 2. Estimadores, varianzas y estimacin de varianzas. 3. Tamao de la muestra. 4. Muestreo aleatorio simple con reposicin. Estimadores 5. Varianzas y su estimacin con reposicin. 6. Tamao de la muestra con reposicin. 7. Comparacin entre muestreo aleatorio sin y con reposicin. 8. Subpoblaciones. 9. Problemas resueltos. 10. Ejercicios propuestos.

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

111

MUESTREO ALEATORIO SIMPLE SIN REPOSICIN. ESPECIFICACIONES


El muestreo aleatorio simple sin reposicin es un procedimiento de seleccin de muestras con probabilidades iguales, que consiste en obtener la muestra unidad a unidad de forma aleatoria sin reposicin a la poblacin de las unidades previamente seleccionadas, teniendo presente que el orden de colocacin de los elementos en las muestras no interviene (es decir, que muestras con los mismos elementos colocados en orden distinto se consideran iguales). De esta forma, las muestras con elementos repetidos son imposibles. Como el procedimiento de seleccin es con probabilidades iguales, todas las muestras son equiprobables, y adems se cumple que todas las unidades de la poblacin tienen la misma probabilidad de pertenecer a la muestra /i = n/N. Se supone que el tamao de la poblacin es N y el tamao de la muestra es n. Como la muestra se selecciona sin reposicin, se realiza la seleccin sucesiva de las unidades para la muestra con probabilidades 1/(N< t) para valores de t = 0, 1, ..., n. Podramos resumir las especificaciones del muestro aleatorio simple sin reposicin o muestreo irrestricto aleatorio como sigue: Se trata de un tipo de muestreo de unidades elementales. Consiste en obtener la muestra unidad a unidad de forma aleatoria sin reposicin a la poblacin de las unidades previamente seleccionadas. El orden de colocacin de los elementos en las muestras no interviene; es decir, las muestras con los mismos elementos colocados en orden distinto se consideran iguales. Las muestras con elementos repetidos son imposibles. Se trata de un procedimiento de seleccin con probabilidades iguales porque todas las unidades de la poblacin van a tener la misma probabilidad de pertenecer a la muestra. Todas las muestras son equiprobables.

Probabilidad de una muestra cualquiera


En la seleccin de una muestra aleatoria simple sin reposicin de n elementos de entre los N de la poblacin, el espacio muestral asociado tiene un nmero total de muestras igual a:

N C N ,n = n
ya que el orden de colocacin de los elementos en las muestras no interviene. Como el procedimiento es con probabilidades iguales, la probabilidad de una muestra cualquiera ser:

p( u1 ,L, un ) =

Casos favorables 1 1 = = Casos posibles C N ,n N n

Estamos entonces ante un procedimiento de seleccin con muestra equiprobables.

112 Muestreo estadstico. Conceptos y problemas resueltos

Probabilidad /i que tiene una unidad de la poblacin de pertenecer a la muestra


Para calcular la probabilidad /i que tiene una unidad de la poblacin de pertenecer a la muestra observamos que el nmero de muestras posibles de tamao n en seleccin irrestricta aleatoria es:
N CN ,n = n

Por otra parte, el nmero de muestras posibles que se pueden formar con los elementos de la poblacin y que contengan al elemento dado ui ser:

N <1 CN<1,n<1 = n<1


ya que en este caso se fija el elemento ui y las muestras posibles resultan de las formas posibles de seleccionar de entre los N-1 elementos de la poblacin restantes n-1 de ellos para la muestra (el elemento ui ya est fijo en la muestra). Tenemos entonces:

/ i = P (u i D ( ~ x )) =

Casos favorables = Casos posibles N de muestras que contienen la unidad u i = N total de muestras N < 1 ( N < 1)! ( N < 1)! n <1 = ( n < 1)! ( N < n )! = ( n < 1)! ( N < n )! = 1 = n = N .( N < 1)! N N! N N n n ( n < 1)! ( N < n )! n n! ( N < n )!

Como todas las unidades de la poblacin tienen la misma probabilidad de pertenecer a la muestra, estamos ante un procedimiento de seleccin con probabilidades iguales.

ESTIMADORES, VARIANZAS Y ESTIMACIN DE VARIANZAS


Ya sabemos que el estimador lineal insesgado general para el caso de muestreo sin reposicin es el estimador de Horvitz y Thompson e HT .
Y = e , es decir, insesgadamente, Se tiene que eHT = i estima e = Yi , con E e
n
N

i =1

/i

i =1

()

siendo /i la probabilidad de que la unidad ui pertenezca a la muestra (/i = n/N). Entonces podemos deducir los estimadores lineales insesgados para el total (Yi=Xi), media (Yi =Xi/N), proporcin (Yi =Ai/N) y total de clase (Yi =Ai) como sigue:

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

113

Xi 1 n = N X i = Nx n i =1 i =1 / i i =1 n i =1 1 4 2 4 3 N x Xi Xi N n n n X X = N = N =1 X =x =X e = X = i Yi = i e i N n i =1 i =1 N i =1 / i i =1 n N Ai N n n A A =P = N = 1A e = P = i Yi = i e i N n i =1 i =1 N i =1 n N N n Ai 1 n =A = e = A = Ai Yi = Ai e = N Ai = NP n i =1 i =1 i =1 n N =X = e = X = X i Yi = X i e
N n

Xi

Se observa que los estimadores de la media y la proporcin poblacional son los estimadores por analoga (media y proporcin muestral), mientras que los estimadores del total y el total de clase poblacionales son la expansin mediante el tamao poblacional de la media y = Nx = ( N / n) x los factores de elevacin son N/n). proporcin muestrales (en este caso, X

Varianzas de los estimadores


Sabemos que la varianza del estimador de Horvitz y Thompson est dada por la expresin:

Y V e$HT = i (1 < / i ) + 2

( )

Yi Yj

i =1

/i

i< j

/ i/ j

(/

ij

< / i/ j

Para el caso particular del muestreo aleatorio simple sin reposicin se sabe que /i = n/N y /ij = n(n <1) / [N(N <1)]. Considerando el estimador del total y sustituyendo estos valores de /i y /ij en la expresin de la varianza tenemos:
2 N N N X X n n n i j n (n < 1) = Xi V X < 1 < + 2 n n n N i =1 i =1 j > i N (N < 1) N N N N N 2 1 N ( ) X X < i n N <1 S2 i =1 = N 2 (1 < f ) = N 2 1 < N n n

( )

Para los estimadores de la media, total y total de clase tenemos:

= (1 < f ) S V X n

N PQ N 1 = (1< f ) S = (1< f ) N <1 (1< f )PQ = VP n n N <1 n

()

N PQ 2 S N3 1 2 < N 1 (1 < f )PQ V A = N (1 < f ) = N (1 < f ) = n n N <1 n

()

114 Muestreo estadstico. Conceptos y problemas resueltos

Estimacin de varianzas
Sabemos que la varianza del estimador de Horvitz y Thompson est dada por la expresin:

$ ) = Yi ( 1 < / ) + $(e V 2 HT i
n n i =1

Yi Yj / ij < / i /

/i

i< j

/ i/

/ ij

Si aplicamos la expresin anterior al estimador del total tendremos:


n(n < 1) n n < X i X j N (N < 1) N N X n = V X = 1 < + 2 n(n < 1) N i =1 n i =1 j > i n n 2 N (N < 1) N N N n 2 2 N (N < n ) 1 S 2 2 (N < n ) S 2 ( ) ( ) < = = < 1 X x N N f i n n <1 n N N =1 i4 144 2444 3

( )

2 i 2

2 S

Para los estimadores de la media, total y total de clase tenemos:


2 ) = (1 < f ) S (X V n

n $$ PQ 2 $ S 1 $$ n < 1 2 2 $ $ V ( A) = N ( 1< f ) = N ( 1< f ) = N 2 (1< f ) PQ n n n <1

n PQ 2 S 1 P = (1 < f ) V PQ = (1 < f ) n < 1 = (1 < f ) n n n <1

()

De las frmulas de las varianzas y sus estimaciones, se deduce que en muestreo aleatorio simple sin reposicin la cuasivarianza muestral
n 2 = 1 ( X i < x )2 S n < 1 i =1

es un estimador insesgado de la cuasivarianza poblacional S 2 =

1 N Xi < X N <1 i =1

TAMAO DE LA MUESTRA
) Estudiaremos el tamao de muestra necesario para cometer un error de muestreo e = m( e estima la media, el total, la proporcin o el total de clase. dependiendo de si e

Media:
n S2 S2 S2 e 2 = 1 < = < n N n n N 2 2 2 2 S S S NS = e2 + n= = 2 n N S Ne 2 + S 2 e2 + N Se observa que cuando N A ' (fraccin de muestreo n/N tendiendo a cero) el tamao muestral n A S2/e2 = n0 (n inversamente proporcional al cuadrado del error de muestreo). )= e = m (X

(1 < f ) S

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

115

La expresin del tamao muestral n puede ponerse en funcin de N y del valor n0 como sigue:
n= n0 n N S2 S 2 e2 = = = 0 = f (N ) 2 2 2 n0 n0 + N S S e 2 + 1 1+ e + N N N

Si representamos grficamente la curva de ecuacin n = f(N) observamos que pasa por el origen de coordenadas, ya que f(0) = 0, que tiene una asntota paralela al eje OX de ecuacin n = n0, ya que lim f (N) = n0 , que es siempre creciente dado que la primera derivada:
N A'

f '(N ) =

n 02 ( n0 + N ) 2

es siempre positiva, que no tiene mximos ni mnimos dado que la ecuacin definida por f(N) = 0 no tiene solucin en N, que es siempre convexa ya que la segunda derivada:
f ''(N ) = < 2 n 02 ( n0 + N ) 3

es siempre negativa y que no tiene puntos de inflexin ya que que la ecuacin definida por f(N)=0 no tiene solucin en N. Por tanto, la representacin grfica de n = f(N) es la siguiente: n n = n0 n0 nn0 < n

Como la curva n = f(N) es creciente, al aumentar el tamao poblacional N tambin aumenta el tamao muestral n necesario para un error de muestreo dado. Pero como n ha de ser un nmero entero y la curva n=n0 es una asntota horizontal, desde un cierto N en adelante los aumentos de N no producen aumentos en n. Precisamente los aumentos de N no producen aumentos en n cuando |n0 < n|<1. Pero:

n0 < n = n0 <

2 n0 N n0 S2 S2 2 = < 1 n0 < n0 + N N > n0 (n0 < 1) = 2 2 < 1 n0 + N n0 + N e e

Luego la misma precisin da una muestra de tamao n para una poblacin de N elementos que para una poblacin de N elementos con N > N siempre y cuando se cumpla que:

N > n 0 ( n 0 < 1) =

S2 S2 2 2 < 1 e e

116 Muestreo estadstico. Conceptos y problemas resueltos

Total:
2 n S 2 N 2S 2 N 2S 2 ) = N 2 (1 < f ) S e 2 = N 2 = < e = m (X 1 < n n N N n N 2S 2 N 2S 2 N 2S 2 N 3S 2 N 2S 2 = e2 + n= = = 2 2 2 N 2S 2 1 +N n N Ne42 S e 2 + NS 2 43 e2 + N N e 2 + NS 2

La expresin anterior tambin puede escribirse como:

S N 2 e = N n1 = f ( N ) n= 2 1 + Nn1 S 1+ N e
2

Si representamos grficamente la curva de ecuacin n = f(N) observamos que pasa por el origen de coordenadas ya que f(0) = 0, que tiene una asntota oblicua de ecuacin n = N <1/n1 ya que:
lim
N A'

f (N ) <N 1 = 1 y lim ( f ( N ) < N ) = lim =< N A ' N A ' 1 + n1 N n1 N

Adems es siempre creciente ya que la primera derivada:

f '(N ) =

2n1 N + n12 N 2 (1 + n1 N ) 2

es siempre positiva, que no tiene mximos ni mnimos ya que la ecuacin definida por f(N)=0 no tiene solucin en N, que es siempre cncava puesto que:

2 n12 N f ''(N ) = (1 + n1 N ) 3
es siempre positiva. Por tanto, la representacin grfica de n = f(N) es la siguiente: n n=f(N) n=N-1/n1

1/n1

Observando la grfica de n = f(N) se ve que n siempre crece al crecer N, es decir, que al aumentar el tamao poblacional tambin aumentar el tamao de muestra necesario para cometer un error de muestreo prefijado.

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

117

Proporcin:
Si sustituimos el valor de S2 para variables Ai (que slo toman los valores 0 y 1) en la frmula del tamao muestral para la media tendremos para la estimacin de la proporcin el tamao:

NS 2 = n= Ne 2 + S 2

N 2 PQ NPQ = 2 = 2 N NPQ + ( N < 1) Ne e ( N < 1) + PQ 4 2444 3 PQ + Ne 2 144 N <1 N e 2 ( N < 1) + PQ

N PQ N <1

En el caso de la proporcin se observa que cuando N A ' (fraccin de muestreo n/N N PQ e 2 PQ e 2 =n0 (n inversamente tendiendo a cero) el tamao muestral n A S2/e2 = N <1 proporcional al cuadrado del error de muestreo y directamente proporcional a la proporcin poblacional P). En este caso, la misma precisin da una muestra de tamao n para una poblacin de N elementos que para una poblacin de N elementos con N > N siempre y cuando se cumpla la desigualdad definida por:
N N PQ PQ PQ PQ N N < 1 < 1 N > n0 (n0 < 1) = < 1 < 1 2 2 2 2 e e e e

Para la estimacin de la proporcin es muy interesante tener en cuenta que para poblaciones grandes o fraccin de muestreo pequea (N A '), el valor mximo de n se obtiene para P = Q = 1/2. Para constatar este resultado sabemos que si N A ' el tamao muestral n tiende al valor n0 = PQ/e2 = f(P), expresin que tenemos que maximizar en P. Si igualamos la primera derivada al valor cero tenemos que como f(P) = P(1<P)/e2 entonces f(P) = (1<2P)/e2 = 0 P = 1/2. Por otra parte f (P) = <2/e2 < 0, lo que asegura la presencia de un mximo para la funcin f en el punto P = 1/2. Como Q =1<P = 1<1/2 = 1/2, el valor mximo de n para poblaciones grandes o fracciones de muestreo pequeas se obtiene para P = Q = 1/2. Por lo tanto, para un error prefijado se necesitarn tamaos de muestra ms pequeos cuanto ms prximo est P a cero o a uno. Este resultado es muy importante en la prctica, ya que cuando se estiman proporciones y no se conoce el valor de la proporcin poblacional P ni se tiene una aproximacin suya (proporcionada por una encuesta similar, por una encuesta piloto, por la misma encuesta realizada anteriormente o por cualquier otro mtodo), entonces se toma P=1/2, con lo que estamos situndonos en el caso de mximo tamao muestral para el error fijado, lo cual siempre es aceptable estadsticamente. La dificultad prctica puede ser que se obtenga un tamao muestral n demasiado grande para el presupuesto de que se dispone. Total de clase: Si sustituimos el valor de S2 para variables Ai (que slo toman los valores 0 y 1) en la frmula del tamao muestral para el total tendremos para la estimacin del total de clase el tamao:

N 2S 2 = n= 2 e + NS 2

N PQ N 3 PQ N <1 = 2 N e (N < 1) + N 2 PQ PQN e2 + N <1 N2

118 Muestreo estadstico. Conceptos y problemas resueltos

Tambin puede estudiarse el tamao de muestra necesario para cometer un error ) dependiendo de si se estima la media, el total, la proporcin relativo de muestreo er = Cv( e y el total de clase. Asimismo, es tpico introducir un coeficiente de confianza adicional P_ al error de muestreo a cometer (lmite de tolerancia). En este caso las frmulas de los tamaos muestrales necesarios para cometer un error absoluto o relativo de muestreo dado en presencia del ) y er_ = h_Cv( e ) . coeficiente de confianza adicional se derivarn de las expresiones e_ = h_m( e En general h_ = F-1(1<_/2), siendo F la funcin de distribucin de una normal (0,1). El cuadro siguiente resume las expresiones de los tamaos muestrales.
Tipo de error A Parmetro ? Media Total Proporcin Total de clase Absoluto e NS Ne 2 + S 2 N S e + NS 2 NPQ 2 e ( N < 1) + PQ N 3 PQ e 2 ( N < 1) + N 2 PQ
2 2 2 2

Relativo er NC
2 1,x 2 Ne r2 + C 1, x 2 NC 1,x 2 Ne r2 + C 1, x NQ P ( N < 1)e r2 + Q NQ P ( N < 1)e r2 + Q

Absoluto y coeficiente de confianza adicional e_ h_ NS 2


2 2 Ne 2 + h_ S2 2 2 2 h_ N S 2 e 2 + h_ NS 2 2 h_ NPQ 2 e 2 ( N < 1) + h_ PQ 2 3 h_ N PQ 2 e 2 ( N < 1) + h_ N 2 PQ

Relativo y confianza e r_ 2 h_ NC 1, x
2 2 2 Ne r2_ + h_ C 1, x 2 2 h_ NC 1,x 2 2 Ne r2_ + h_ C 1, x 2 NQh_ 2 e r2_ ( N < 1) P + h_ Q 2 NQh_ 2 e r2_ ( N < 1) P + h_ Q

2 En todas las frmulas S2 es la cuasivarianza poblacional y C1, x = (S / X ) . Por otra parte, 2

h_ es el valor crtico de la normal unitaria al nivel _.


MUESTREO ALEATORIO SIMPLE CON REPOSICIN. ESTIMADORES
El muestreo aleatorio simple con reposicin es un procedimiento de seleccin con probabilidades iguales que consiste en obtener la muestra unidad a unidad de forma aleatoria con reposicin a la poblacin de las unidades previamente seleccionadas. De esta forma las muestras con elementos repetidos son posibles y cualquier elemento de la poblacin puede estar repetido en la muestra 0, 1, ..., n veces. Supongamos en todo momento que el tamao de la poblacin es N y el tamao de la muestra es n. Como la muestra se selecciona con reposicin (se reponen a la poblacin las unidades previamente seleccionadas) y con probabilidades iguales, se realiza la seleccin sucesiva de las unidades para la muestra con probabilidades Pi = 1/N y todas las muestras son equiprobables, ya que: P(u1, u2, ..., un) = P(u1)P(u2) ... P(un) = (1/N)(1/N) ... (1/N) = 1/(Nn) En cuanto a los estimadores, partimos de que el estimador lineal insesgado general para el caso de muestreo con reposicin es el estimador de Hansen y Hurwitz e$
N

HH

=
i =1

Yi nPi

(Pi = probabilidad de seleccionar la unidad ui de la poblacin para la muestra =1/N), que estima insesgadamente la caracterstica poblacional e =

Y . Segn los distintos valores de Y se tiene:


i =1 i

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones


n Xi X 1 n = i = N X i = Nx n i =1 i =1 nP i =1 n i =1 i 1 4 2 4 3 N x Xi Xi n n n N Xi Xi N =1 N = = X = Xi = x e = X = Yi = e n n i =1 N i =1 nP i =1 i =1 N i N Ai N n n A A = N = 1A e = P = i Yi = i e = P i N n i =1 i =1 N i =1 n N N n Ai 1 n = A = e = A = Ai Yi = Ai e = N Ai = NP n i =1 i =1 i =1 n N N n

119

= e = X = X i Yi = X i e = X

Da la casualidad de que se obtienen los mismos estimadores insesgados para los parmetros poblacionales que para el caso de muestreo aleatorio simple sin reposicin. Por lo tanto, los estimadores de la media y la proporcin poblacional son los estimadores por analoga (media y proporcin muestral), mientras que los estimadores del total y el total de clase poblacionales son la expansin mediante el tamao poblacional de la media y proporcin = Nx = ( N / n) x los factores de elevacin son N/n). muestrales (en este caso, X

VARIANZAS Y SU ESTIMACIN CON REPOSICIN


Partiendo de la varianza del estimador de Hansen y Hurwitz:

V ( e$

1 N Yi = ) < Y Pi HH n i =1 Pi

y considerando que para el caso particular del muestreo aleatorio simple con reposicin se sabe que Pi = 1/N, tenemos:
2 N N ) = 1 Xi < X P = 1 Xi < X 1 = N 1 V (X i n i =1 1 N n i =1 n N Pi N
2 2

(X
N i =1

< X) = N2

m2
n

2 2 = Var = 1 N2 m =m X = 12 Var X V X N N n n N2 N <1 2 S 2 2 PQ m N = N 2 m = N 2 PQ V P = = = V A n n n n n

( )

()

()

Para estimar las varianzas partimos del estimador de la varianza de Hansen y Hurwitz:

$ (e$ ) = V HH

n Yi $ 1 <Y HH n(n < 1) i =1 Pi

120 Muestreo estadstico. Conceptos y problemas resueltos

y considerando que para el caso particular del muestreo aleatorio simple con reposicin se sabe que Pi = 1/N, tenemos:
2 n 2 X 1 N2 1 n 2 S i X = ( ) = < = X X x N < V i n n < 1 i =1 n n(n < 1) i =1 1 N
2

( )

2 2 X =V X = 1 N2 S = S = 12 V V X N N N2 n n n n PQ PQ 2 2 1 1 = N 2 S = N 2 n <1 A P = S = n <1 V V PQ PQ = = N2 n n n <1 n n <1 n

( )

()

()

Un resultado interesante que se deduce de las frmulas anteriores es que la 2 es un estimador insesgado de la varianza poblacional m2 cuasivarianza muestral definida S en muestreo aleatorio simple con reposicin

TAMAO DE LA MUESTRA CON REPOSICIN


Igual que en el caso de sin reposicin, consideraremos el tamao de muestra necesario para ) dependiendo de si e estima la media, el total, la cometer un error de muestreo e = m( e proporcin o el total de clase. Tambin se considerar el tamao de muestra necesario para ) dependiendo de si se estima la media, el total, la cometer un error relativo de muestreo er = Cv( e proporcin y el total de clase. Asimismo, se tendr presente la introduccin de un coeficiente de confianza adicional P_ al error de muestreo a cometer (lmite de tolerancia), en cuyo caso las frmulas de los tamaos muestrales necesarios para cometer un error absoluto o relativo de muestreo dado en presencia del coeficiente de confianza adicional se derivarn de las expresiones ) y er_ = h_Cv( e ) . En general, h_ = F-1(1<_/2), siendo F la funcin de distribucin de e_ = h_m( e una normal (0,1). El cuadro siguiente resume las expresiones de los tamaos muestrales.
Tipo de error A Parmetro ? Media Total Proporcin Total de clase Absoluto y coeficiente Absoluto Relativo de confianza adicional er e e_ 2 2 2 2 h C m x _m e2 er2 e2 2 2 2 2 h_ N 2m 2 Cx N m e2 er2 e2 2 h_ PQ PQ Q e2 Per2 e2 2 h_ N 2 PQ N 2 PQ Q 2 2 e Per e2 Relativo y confianza e r_ 2 2 h_ Cx er2_ 2 2 h_ Cx er2_ 2 h_ Q Per2_ 2 h_ Q Per2_
2

En todas las frmulas m 2 es la varianza poblacional y C x2 = (m / X ) . Por otra parte,

h_ es el valor crtico de la normal unitaria al nivel _.

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

121

COMPARACIN ENTRE MUESTREO ALEATORIO SIN Y CON REPOSICIN


Se pueden realizar las comparaciones a travs error de muestreo o a travs del tamao muestral necesario para cometer un error de muestreo dado. Desde el primer enfoque ser ms preciso aquel mtodo de seleccin cuyo error de muestreo sea menor, es decir, el que tenga menor varianza de los estimadores. Tenemos:

N V SR X m2 2 = N < n <1 S n N <1 N <nm V SR X = (1 < f ) = (1 < ) = X N <1 n N n N < 1 n VCR m2 m2 VCR X = n= 2 V SR X < V CR X n e
2

Para el resto de los estimadores todo sera equivalente, luego la varianza siempre es menor en el caso del muestreo sin reposicin, lo que nos indica que el muestreo sin reposicin es en general ms preciso que el muestreo con reposicin. Desde el punto de vista del tamao muestral, ser mejor aquel mtodo de seleccin en el que se necesite menor tamao muestral para cometer un error de muestreo dado. En este captulo hemos visto que para muestreo sin reposicin el valor de n era:
n SR = n0 1 + n0 N

tanto en el caso de estimaciones de medias y proporciones para un error de muestreo dado como en el caso de estimaciones de medias, totales, proporciones y totales de clase para un error relativo de muestreo dado con o sin coeficiente de confianza. En los mismos casos, para muestreo con reposicin se observa que el tamao muestral resulta ser nCR = n0. Por lo tanto, tenemos:

nSR =

n0 nCR = < nCR n SR < nCR 1 + n0 N 1 + nCR N

En el caso de estimacin sin reposicin de totales y totales de clase para un error de muestreo dado con o sin coeficiente de confianza se vio que:

n SR

nCR N 2 n1 = < nCR n SR < nCR 1 + Nn1 1 + nCR N

En los mismos casos para muestreo con reposicin se observa que el tamao muestral resulta ser nCR = N2n1. Por lo tanto, en todas las situaciones, en el caso de muestreo sin reposicin se necesita menos tamao de muestra para cometer el mismo error que en el caso del muestreo con reposicin, con lo que el muestreo sin reposicin es ms eficiente que el muestreo con reposicin.

122 Muestreo estadstico. Conceptos y problemas resueltos

SUBPOBLACIONES
La escasa disponibilidad de marcos que listen especficamente los elementos de la poblacin que interesa estudiar, sobre todo cuando utilizamos unidades poblacionales muy elementales (marco muy fino), nos lleva a considerar la teora de subpoblaciones o dominios. Normalmente se dispone de marcos menos finos cuyas unidades contienen a las unidades elementales en estudio. Por ejemplo, podemos desear estudiar una muestra de los hogares que tienen nios, pero el mejor marco disponible puede ser una lista de todos los hogares en la ciudad (sin poder desagregar hasta los hogares que tienen nios). Utilizaremos entonces el marco amplio de todos los hogares y consideraremos la subpoblacin de los hogares que tienen nios para intentar estimar los parmetros de dicha subpoblacin a travs de los mtodos para subpoblaciones. Supongamos que dividimos una poblacin de tamao N en subpoblaciones o dominios. Consideremos que el j-simo dominio contiene Nj unidades, y que nj es el nmero de unidades, en una muestra aleatoria simple de tamao n, que pertenecen al dominio j. n3 N 3
y3

n2 N2
y2

n1 N1 N = Tamao de la poblacin n = tamao de la muestra Sea Yjk (k = 1, 2, ..., nj y nj = n) son los valores de la variable en estudio medida sobre los elementos de la muestra que pertenecen al dominio j-simo. Un estimador insesgado de la media en la subpoblacin o dominio j ser el siguiente:
= y = Y jk Y j j k =1 n j
nj

y1

cuya varianza puede expresarse como:

V ( y j ) = (1 <

Nj Nj Y jk nj S2 1 2 j ( ) Y siendo S 2 = Y < Y donde = ) j jk j j N j nj N j < 1 k =1 k =1 N j

y pudiendo expresarse la estimacin de su varianza como:

( y ) = (1 < V j

nj nj 2 Y jk nj S 1 j 2 2 ( ) y siendo S = Y < y dnde = ) j jk j j N j nj n j < 1 k =1 k =1 n j

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

123

Si no se conoce el valor de Nj, se sustituye nj/Nj por n/N y se tiene:


V ( y j ) = (1 < n Sj ) N nj
2

2 S ( y ) = (1 < n ) j V j N nj

En el caso del muestreo con reposicin tenemos:

V(yj ) =

m2 j
nj

1 siendo m = Nj
2 j

(Y
k =1

Nj

jk

< Yj )

(y ) = y V j

2 S j nj

Un estimador insesgado del total en la subpoblacin o dominio j en caso de conocer Nj ser el siguiente:

=N y =N Y j j j j
k =1

nj

Y jk nj

cuya varianza y estimacin de varianza son, respectivamente:

) = N 2V ( y ) = N 2 (1 < V (Y j j j j

nj S2 j ) N j nj

(Y ) = N 2 (1 < y V j j

2 nj S j ) N j nj

En el muestreo con reposicin tendremos:

) = N 2V ( y ) = N 2 V (Y j j j j

m2 j
nj

(Y ) = N2 y V j j

2 S j nj

Un estimador insesgado del total en la subpoblacin o dominio j en caso de no conocer Nj ser el siguiente:

=N Y j j
k =1

nj

Y jk nj

=
k =1

nj

Nj nj

Y jk = {

? Se aplica Nj N A nj n

N n

Y
k =1

nj

jk

N n

Total muestral en dominio j < simo

yj {

cuya varianza y estimacin de varianza son, respectivamente:

) = N 2 (1 < V (Y j
2

n S' ) N n

'2 S (Y ) = N 2 (1 < n ) V j N n

nj nj Y j2 y2 1 1 j 2 2 2 siendo S ' = Y jk < e y j = Y jk Y jk < N , S ' = n < 1 n N <1 k =1 k =1 Dominio j

En el muestreo con reposicin tendremos:

) = N2 V (Y j

m '2
n

(Y ) = N2 y V j

'2 S n

1 con m ' = N
2

Dominio j

Y jk

Y j2 < N

124 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
3.1.
Un auditor muestrea aleatoriamente con reposicin 20 cuentas impagadas de una empresa y verifica en 12 de ellas la cantidad adeudada y si los documentos respectivos cumplen (1) o no cumplen (0) con los procedimientos establecidos. Se tienen la siguiente estructura poblacional: Cuenta 1 2 3 4 5 6 7 8 9 10 Cantidad Concordancia 278 192 310 94 86 335 310 290 221 168 1 1 1 0 1 1 0 1 1 1 Cuenta 11 12 13 14 15 16 17 18 19 20 Cantidad Concordancia 188 212 92 56 142 37 186 221 229 305 0 0 1 1 1 1 0 1 0 1

Basndose en las 12 cuentas verificadas, estimar la proporcin de cuentas cuyos documentos concuerdan, as como el importe medio adeudado, y cuantificar el error cometido. Comenzamos introduciendo los datos en una hoja de clculo de Excel. A continuacin, para elegir la muestra, en el men Herramientas de Excel elegimos Anlisis de datos, seleccionamos Muestra y rellenamos la pantalla de entrada como se indica en la Figura 3-1. Al pulsar Aceptar se obtiene la MUESTRA de tamao 12 de la Figura 3-2. Mediante las frmulas de la Figura 3-2 se obtienen los resultados de la Figura 3-3.

Figura 3-1

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

125

Figura 3-2

Figura 3-3 Hemos obtenido que el importe medio adeudado se estima en:
X= 1 12 X i = 209,583 12 i =1
2

con un error absoluto de:


= m = 655,745 V X n

La proporcin de cuentas cuyos documentos concuerdan con los procedimientos establecidos se estima mediante:
12 = 1 A = 0,75 P i 12 i =1

El error absoluto de esta estimacin es:


= PQ = (14 / 20)(6 / 20) = 84 = 0,0175 V P n 12 4800

()

126 Muestreo estadstico. Conceptos y problemas resueltos

En trminos relativos estos errores son ms fcilmente interpretables, y se cuantifican en el 12,2% y el 17,6%, respectivamente (a travs de los coeficientes de variacin de los estimadores). Tenemos:
= 655,745 100 = 12,218% Cv X 209,583 = Cv P

()

0,0175 100 = 17,638% 0,75

3.2.

El gerente de un taller de maquinaria desea estimar el tiempo promedio que necesita un operador para terminar una tarea sencilla. El taller tiene 98 operadores y se selecciona una muestra de 8 sin reposicin a los que se les toma el tiempo, Se obtienen los siguientes resultados: 4,2 5,1 7,9 3,8 5,3 4,6 5,1 4,1 Estimar el tiempo promedio y el tiempo total para terminar la tarea entre todos los operadores estableciendo lmites al 95% para los errores de estimacin. Comenzamos introduciendo los datos como la variable T en una hoja de clculo de Excel. A continuacin, para calcular los estadsticos necesarios, en el men Herramientas de Excel elegimos Anlisis de datos, seleccionamos Estadstica descriptiva y rellenamos la pantalla de entrada como se indica en la Figura 3-4. Al pulsar Aceptar se obtienen los estadsticos maestrales de la Figura 3-5. Por ltimo, se calculan los estimadores y sus errores segn las frmulas de la Figura 3-6 que nos llevan a los resultados de la Figura 3-7. 12 = 1 Ti = Se observa que el tiempo medio por operario para terminar la tarea es T 12 i =1 2 ) = (1 < f ) S (T = 0,189 y un error relativo 5,0125 minutos con un error de muestreo de V n ) (T 0,189 ) = m dado por Cv(T 100 = 100 = 9,69%. El tiempo total para terminar la tarea se 5,0125 T = 89 u 5,0125 = 491,225 minutos con un error de muestreo estimado por = NT estima en T
) = 89 2 u 0,189 = 1822,07, siendo el error relativo el mismo que el del estimador (T ) = N 2V (T V del tiempo medio, es decir, 9,69%. El coeficiente de curtosis = 4,24 no est en el intervalo [<2,2] luego no podemos suponer normalidad, con lo que intervalo de confianza al 95% para la media de anchura 1,07475886 no es vlido.

Figura 3-4

Figura 3-5

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

127

Figura 3-6

Figura 3-7 Al no existir normalidad utilizamos como intervalos de confianza:

m e +m e ,e e < _ _
cuya anchura es 2

()

()

m e . Esta anchura (3,895 para el estimador de la media y 381,79 para el _

()

estimador del total) suele considerarse como un lmite para el error de estimacin. Se observa que estas anchuras son mayores que con normalidad, ya que en este caso las estimaciones son menos precisas (errores mayores).

3.3.

En una regin con N = 1000 viviendas determinar el tamao de muestra necesario para que, con un grado de confianza del 95%, la estimacin de la proporcin de viviendas sin agua corriente no difiera en ms del 0,1 del valor verdadero. Comentar los resultados para muestreo sin reposicin y con reposicin.

128 Muestreo estadstico. Conceptos y problemas resueltos

< P |) 0,10) = 0,95 P (<0,10 ) P < P ) 0,10) = 0,95 P(| P < P 0,10 < 0,10 P = 0,95 P ) ) m (P ) m (P ) m (P ) < 0,10 0,10 = 0,95 ) N (0,1) ) P m (P ) ) m ( P

De lo anterior se deduce que:


0,10 ) = 0,10 = 0,051 = h_ = 1,96 m ( P 1,96 m ( P)

Luego el problema se traduce en calcular el tamao de muestra necesario para cometer un error de muestreo de 0,051 al estimar la proporcin de viviendas sin agua corriente. Como no tenemos informacin acerca de la proporcin poblacional P de viviendas sin agua corriente, nos colocamos en la situacin ms desfavorable, es decir, P = Q = 1/2. Tendremos:
n= NP (1 < P ) 1000 u 0,5 u 0,5 = = 91 viviendas 2 0,5 u 0,5 + 999.0,0512 P (1 < P ) + ( N < 1)e

Para el caso de muestreo con reposicin tendremos:


n= P (1 < P ) 0,5 u 0,5 = = 96 viviendas e2 0,0512

Se observa que el tamao de muestra necesario para cometer el mismo error de muestreo al estimar igual parmetro es superior en el caso de muestreo con reposicin.

3.4.

De una poblacin con 33 millones de habitantes se ha obtenido una muestra de 10.000. En ella, 4.000 se han clasificado como poblacin activa, y de stos, 40 se encuentran en situacin de desempleo. Se pide: 1) Estimar el porcentaje de poblacin activa. Estimar tambin el nmero de personas activas que se encuentran en situacin de desempleo. Calcular los errores absoluto y relativo de muestreo en ambas estimaciones as como intervalos de confianza con un riesgo del 3 por mil. 2) Cuntas personas de todas las edades sera necesario incluir en una muestra para estimar la tasa de actividad en Espaa con un error absoluto E = 0,02 y una probabilidad del 95%? Del ltimo censo se sabe que en el pas hay un 39% de activos. Contestar a la misma pregunta para cometer un error relativo del 5%. Realizamos el siguiente esquema de apoyo (PA significa poblacin activa y NPA significa el complentario): PA=4000 N=33000000 NPA=6000 3660 activos 40 parados

n=10000

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

129

El porcentaje estimado de poblacin activa ser:


= 4000 = 0,4 (40%) P 10000

El error de muestreo ser:


) = 1 < (P m (1 < P ) 10000 0,4(1 < 0,4) nP = 1 < = 0,00489 N n <1 33000000 10000 < 1

, que El error relativo de muestreo ser la estimacin del coeficiente de variacin de P se calcula de la siguiente forma:
) 0,00489 (P v( P ) = m C = = 0,012225 (1,2225%) 0,4 P

Para hallar el intervalo de confianza para la proporcin con _ = 0,003, utilizamos h_ = F-1N(0,1) (1<_/2) = F-1 N(0,1) (1<0,003/2) = F-1 N(0,1) (0,9985)=2,997. El intervalo ser:
< h m (P ), P + h m (P )] = [0,4 < 2,997 u 0,00489, 0,4 + 2,997 u 0,00489] = (0.3853, 0.4146) [P _ _

Se podra interpretar el intervalo de confianza diciendo que el porcentaje de la poblacin activa est comprendido entre el 38,53% y el 41,46% con una probabilidad del 997 por mil, es decir, prcticamente la certeza. El total estimado de personas activas que se encuentran en situacin de desempleo ser:
40 = 33000000 A = 132000 10000 1 4 24 3
P

El error de muestreo ser:

) = N 2 1 < (A m

(1 < P ) n P 10000 0,004(1 < 0,004) = 33000000 1 < = 20827 N n <1 33000000 10000 < 1

, que El error relativo de muestreo ser la estimacin del coeficiente de variacin de A se calcula de la siguiente forma:
) 20827 (A v( A ) = m = = 0,157 C 132000 A (15,7%)

Para hallar el intervalo de confianza para el total con _ = 0,003, utilizamos el valor h_=F-1N(0,1) (1<_/2) = F-1 N(0,1) (1<0,003/2)= F-1 N(0,1) (0,9985)=2,997. El intervalo ser:

< h m (A ), A + h m (A )] = [132000< 2,997 u 20827, 132000+ 2,997 u 20827] = (69581 [A , 194419) _ _


El tamao de muestra necesario para estimar la tasa de actividad en Espaa con un error de muestreo e_ = 0,02 y un coeficiente de confianza del 95% ser:
n=
2 h_ NPQ 1,96 2 u 33000000 u 0,39 u (1 < 0,39) = = 2379 2 2 + h_ PQ (33000000 < 1) u 0,02 2 + 1,96 2 u 0,39 u (1 < 0,39) ( N < 1)e_

130 Muestreo estadstico. Conceptos y problemas resueltos

El tamao de muestra necesario para estimar la tasa de actividad en Espaa con un error relativo de muestreo e r _ =0,05 y un coeficiente de confianza del 95% ser:
n=

h2 r_ NQ
( N < 1) Pe r2_ + h 2 r_ Q

1,96 2 u 33000000 u (1 < 0,39) = 2379 (33000000 < 1) u 0,39 u 0,02 2 + 1,96 2 u (1 < 0,39)

3.5.

Mediante muestreo irrestricto aleatorio se trata de estimar la proporcin y el total de aciertos obtenidos en un juego ilegal en el que se realizan un total de 6000 apuestas. En un ensayo previo se han obtenido 1/3 de fallos en las apuestas. Se pide: 1) Hallar el nmero de apuestas necesario para que el error de muestreo sea de una dcima al estimar la proporcin de aciertos en las apuestas del juego ilegal. Hallar tambin el nmero de apuestas necesario para que el error relativo de muestreo sea del 20% en la misma estimacin. 2) Hallar el nmero de apuestas necesario para que el error de muestreo sea de 600 unidades al estimar el total de aciertos en las apuestas con un coeficiente de confianza del 99,7% y suponiendo muestreo aleatorio simple con reposicin. Hallar dicho tamao en las condiciones anteriores pero para un error relativo de muestreo del 10%. Tenemos como datos N = 6000 y P = 2/3. El tamao de muestra necesario para estimar la proporcin de aciertos en las apuestas con un error de muestreo e = 0,1 ser:
n= NPQ 6000 u 0,6666 u (1 < 0,6666) = = 22,14 2 ( N < 1)e + PQ (6000 < 1) u 0,12 + 0,6666 u (1 < 0,6666)

Ser necesario utilizar un tamao de muestra de 23 apuestas. El tamao de muestra necesario para estimar la proporcin de aciertos con un error relativo de muestreo e r = 0,2 ser:
n= NQ 6000 u (1 < 0,6666) = = 12,47 2 ( N < 1) Pe r + Q (6000 < 1) u 0,6666 u 0,2 2 + (1 < 0,6666)

Ser necesario utilizar un tamao de muestra de 13 apuestas. Para hallar el tamao de muestra necesario para estimar el total de aciertos con _ = 0,003, se usa h_ = F-1N(0,1) (1<_/2) = F-1N(0,1) (1<0,003/2) = F-1N(0,1) (0,9985) = 2,997. Dicho tamao en muestreo con reposicin para un error de muestreo e_ = 600 se calcula de la siguiente forma:
n=
2 h_ PQN 2 2 e_

2,997 2 u 0,6666(1 < 0,6666)6000 2 = 199,6 (200 apuestas) 600 2

El tamao de muestra en muestreo con reposicin para un error relativo de muestreo er_ = 0,1 con _ = 0,003 se calcula de la siguiente forma:
n=
2 Q h_ 2 e_ P

2,997 2 u (1 < 0,6666) = 449,1 (450 apuestas) 0,12 u 0,6666

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

131

3.6.

De una poblacin de 100 opositores que se presentan a un examen se ha extrado una muestra irrestricta aleatoria de tamao n = 8, siendo sus edades (variable X) las siguientes: {25, 32, 28, 35, 26, 34, 30, 28}. Basndose en esta muestra, estimar la edad media y la suma de las edades de los opositores as como sus errores absoluto y relativo de muestreo. Determinar tambin: 1) Basndose en la muestra anterior, qu tamao de muestra sera necesario para que el error de muestreo sea 2 al estimar la edad media y 50 al estimar la suma de las edades? Y para que el error relativo sea del 6%? Contestar a las mismas preguntas con un coeficiente de confianza del 95%. 2) A partir de la muestra anterior, estimar la proporcin de edades pares en la poblacin y el total de la clase de las edades pares estimando los errores absoluto y relativo de muestreo. Qu tamao de muestra sera necesario para que el error relativo de muestreo fuese del 6% al 95% de confianza al estimar la proporcin? 3) Hallar el tamao de muestra del apartado anterior suponiendo muestreo con reposicin. Comentar los resultados. Se observa que la media muestral es 29,75, la cuasivarianza muestral es 13,3571 y la cuasidesviacin tpica muestral es 3,65474. Tambin se obtienen buenos valores para los coeficientes de asimetra (0,28) y curtosis (<0,79), que al estar comprendidos entre <2 y 2 permiten suponer normalidad. Las estimaciones de la edad media y la suma de edades y sus errores absoluto y relativo son: 2 8 13.3571 S = x = 29,75 ( x ) = (1 < f ) X e =m = 1 < = 1,536 8 n 100 ( x ) 1,536 m e r = Cv( x ) = = = 0,051 (5,1%) 29,75 x

= N u x = 100 u 29,75 = 2975 X

) = N um (X ( x ) = 100 u1,536 = 153,6 e =m


(5,1%)

) 153,6 (X ) = m e r = Cv( X = = 0,051 2975 X

Evidentemente, los errores relativos de las estimaciones de media y total coinciden. Para hallar el tamao de muestra necesario para estimar la edad media (media) con un error de muestreo e igual a 50, consideramos la muestra anterior como una muestra piloto que nos proporciona una estimacin del valor de la cuasivarianza. Se aplica la frmula:
n= 100 u13,3571 NS 2 = = 3,23 2 2 13,3571 + 100.2 2 S + Ne

con lo que se tomar como tamao de muestra necesario n = 4. Para hallar el tamao de muestra necesario para estimar la suma de edades (total) con un error de muestreo e igual a 50, se aplica la frmula:

132 Muestreo estadstico. Conceptos y problemas resueltos

n=

100 2 u13,3571 N 2S 2 = = 34,82 NS 2 + e 2 100 u13,3571 + 50 2

con lo que se tomar como tamao de muestra necesario n = 35. Si introducimos un coeficiente de confianza del 95%, los tamaos de muestra necesarios para cometer el mismo error de muestreo e_ = 2 al estimar la media y e_ = 50 para el total lgicamente sern algo superiores a los calculados anteriormente. Tenemos: MediaA n =

h2 S 2 1,962 u13,3571 n0 12,82 = 12,82 = = 11,36 con n0 = _ 2 = n 12,82 22 e_ 1+ 0 1+ N 100

TotalA n =

h2 S2 1,962 u13,3571 N 2n1 1002u12,82 = = 99,92 con n0 = _ 2 = = 12,82 1 + Nn1 1 + 100u12,82 22 e_

Para el caso de un error relativo de muestreo igual a er = 0,06 el tamao de muestra necesario es el mismo para la estimacin del total y de la media. Tendremos:
n= C12, x e r2 + C12, x N =

S 2 13,3571 0,015 = 0,015 = 4 con C12, x = 2 = 0,015 29,75 2 X 0,06 2 + 100

Para el caso de un error relativo de muestreo igual a er_ = 0,06 con un coeficiente de confianza del 95%, el tamao de muestra necesario es el mismo para la estimacin del total y de la media, y lgicamente ser mayor que cuando no existe el coeficiente de confianza. Tendremos:
n=
2 h_ C12, x 2 e r2_ + h_

C12, x N

1,96 2 u 0,015 = 61,54 0,015 0,06 2 + 1,96 2 u 100

con lo que se tomar como tamao de muestra necesario n = 65 que, evidentemente, es superior al tamao de muestra necesario sin coeficiente de confianza. A continuacin consideramos la muestra asociada a la inicial, cuyos valores son cero para edades impares y uno para edades pares, es decir, la nueva muestra ser {0, 1, 1, 0, 1, 1, 1, 1}. A partir de esta muestra estimaremos la proporcin P y el total de la clase A de los valores pares de X en la poblacin, as como los errores de muestreo correspondientes. Tenemos:

= P

6 = N uP = 100 6 = 75 = 0,75 (75%) A 8 n 8 8 0,75 u 0,25 ) = (1 < f ) PQ = (P e =m = 0,0246 1 < n <1 100 8 < 1 ) = N um ) = 100 u 0,0246 = 2,46 (A (P e =m
i =1

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

133

El tamao de muestra necesario para estimar la proporcin de edades pares en la poblacin con un error relativo de muestreo e r_ = 0,06 y un coeficiente de confianza del 95% ser:
n=

h2 r_ NQ
( N < 1) Pe r2_ + h 2 r_ Q

1,96 2 u100 u (1 < 0,75) = 78,22 (100 < 1) u 0,75 u 0,06 2 + 1,96 2 u (1 < 0,75)

Vamos a realizar a continuacin para muestreo con reposicin el clculo del tamao de muestra necesario para que el error relativo de muestreo sea 0,06 al estimar la proporcin de edades pares de la poblacin con un coeficiente de confianza del 95%. Utilizamos:

n=

h_ C
2

2 X

e r2_

Q 1,96 2 1 < 0,75 0,75 = 2P = = 355 0,06 2 e r_


2 h_

luego el tamao de muestra necesario ser n = 355, que supera al tamao poblacional. Eso se debe a lo bajo que es el error especificado a cometer. En este caso habr que aumentar el error a cometer. No obstante, se ha comprobado que el tamao de muestra necesario para estimar el mismo parmetro cometiendo el mismo error siempre es mayor en el muestreo con reposicin, lo que indica que este tipo de muestreo es menos preciso que el muestreo sin reposicin. Esto concuerda tambin con el hecho de que los errores de muestreo siempre son menores en el caso de sin reposicin.

3.7.

Una muestra irrestricta aleatoria de 600 habitantes procedente de una poblacin de N = 15.000 presenta los siguientes datos para la variable X = nmero de visitas anuales a doctores especialistas:

X
i =1

600

= 2946 y

X
i =1

600

2 i

= 18694

Hallar intervalos de confianza al 95% para el total y la media por habitante anuales de visitas a doctores especialistas en la poblacin admitiendo normalidad para la distribucin de los estimadores. Tomando la muestra anterior como muestra piloto, qu tamao de muestra ser necesario para cometer un error absoluto de muestreo de 1.000 unidades al estimar el total de visitas a doctores especialistas en la poblacin? Y para cometer un error relativo de muestreo del 15%? El total de visitas a doctores especialistas en la poblacin, su error y el intervalo de confianza al 95% se estiman como sigue:
2 20 20 2 = 1 X 2 < = N u x = 15000 u 2946 = 73650 S X X n = 7,06 i i n <1 600 i =1 i =1

) = N 2 (1 < f ) (X m

2 600 7,06 S = 15000 2 1 < = 1594,239 n 15000 600

h m ) = 73650 1,96 u1594,239 = (70526, 76775) (X IC ( X ) = X _

134 Muestreo estadstico. Conceptos y problemas resueltos

La media de visitas por habitante a doctores especialistas en la poblacin, su error y el intervalo de confianza al 95% se estiman como sigue:
x= 2946 = 4,91 600
( x ) = (1 < f ) m 2 600 7,06 S = 1 < = 0,106282 n 15000 600

( x ) = 4,91 1,96 u 0,106282 = (4,70168, 5,11831) IC ( x ) = x h_ m

El tamao de muestra necesario para cometer un error absoluto de muestreo de 1.000 unidades al estimar el total poblacional de X, se puede calcular despejando n en la frmula de la desviacin tpica del estimador del total, de la forma siguiente:
15000 2 u 7,06 n 7,06 1000 2 = 15000 2 1 < n= = 1437 1000 2 + 15000 u 7,06 15000 n

El tamao de muestra necesario para cometer un error relativo de muestreo del 15% al estimar el total poblacional de X puede hallarse como sigue:
NC
2 1, x

n=

Ne r2 + C12, x

7,06 S2 15000 2 4,912 X = = = 13 2 7,06 S 2 2 Ne r + 2 15000 u 0,15 + 4,912 X N

Hemos utilizado un valor de S2 = 7,06 porque la muestra de tamao 600 con los datos dados en el enunciado del problema se utiliza como muestra piloto.

3.8.

Un sector industrial de Estados Unidos tiene un censo de 1000 fbricas. Hallar el tamao de muestra necesario (nmero de fbricas) para que, con un grado de confianza del 95%, la estimacin de la produccin total del sector quede dentro del 10% de su valor verdadero. Se utiliza muestreo irrestricto aleatorio y se sabe por una muestra piloto que el coeficiente de variacin poblacional es 0,6.

< X |) 0,10 X ) = 0,95 P(<0,10 X ) X < X ) 0,10 X ) = 0,95 P(| X < X 0,10 X < 0,10 X X < 0,10 X 0,10 X = 0,95 P = 0,95 P ) ) ) N (0,1) ) m (X ) ) m (X ) ) ) m (X m (X m (X ) ) 0,10 X m (X m (X ) = e con h =1,96 = h_ 0,10 = h_ = h_ = h_ Cv( X r_ _ X m (X ) E( X )
Por lo tanto, el problema se traduce en calcular el tamao de muestra necesario para cometer un error relativo de muestreo de 0,051 al estimar la produccin total.
2 h_ NC12,x 2 2 Ner2_ + h_ C1, x 2 h_ N m 1,962 u1000 h_ N S2 2 ( u 0,62 CV ) h_ N 2 N <1 X 999 1 < N X = = 122 = = = 2 2 2 2 1,962 h_ 2 h m N 2 2 S 2 2 2 2 _ (CV ) 0,1 + .0,6 Ner_ + h_ 2 Ner_ + er_ + 999 N <1 X N <1 X 2 2 2 2

n=

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

135

3.9.

Los partidos de izquierdas desean obtener informacin rpida sobre el nmero total de concejales que obtuvieron en las ltimas elecciones en los 300 municipios ms pequeos de una regin espaola. Para ello se eligieron 50 municipios, y se obtuvieron los siguientes resultados: Nmero de concejales por municipio Xi 0 1 2 3 4 5 6 7 8 9 Se pide: 1) Estimar el nmero total de concejales que obtuvieron los partidos de izquierdas en las ltimas elecciones en la regin en los municipios ms pequeos. 2) Si se hubiera querido un error de muestreo inferior a 150 concejales, cuntos municipios habra sido necesario seleccionar? Tenemos N = 300 y n = 50. Para estimar el total de concejales que obtuvieron los partidos de izquierdas se procede como sigue: Nmero de municipios ni 2 7 5 7 8 10 5 3 2 1

x=

1 k 196 = Nx = 300 3,92 = 1176 concejales x i ni = = 3,92 X n i =1 50

Como no se especifica lo contrario, se supone que el muestreo es sin reposicin, en cuyo caso el error del estimador anterior al 99% de confianza es:
) = h N 2 (1 < n ) S = 2,575 300(300 < 50) 4,8098 = 218,7189 m (X _ N n 50
2

2 ( xi ) 1 196 2 1 k 2 x i ni < = < = 4,8098 S = 1004 50 n < 1 i =1 n 49


2

Por tanto, la estimacin del nmero de concejales obtenidos en los 300 municipios ms pequeos de esa regin durante las pasadas elecciones es de 1178 concejales. El error de muestreo con un 99% de confianza ha resultado ser 218,7, que en trminos relativos (de coeficiente de variacin) es:
(X ) = 218,7189 u 100 = 18,59% C v 1176

136 Muestreo estadstico. Conceptos y problemas resueltos

Para estimar el total de concejales con un error de muestreo inferior a 150, el nmero de municipios que habra sido necesario seleccionar se calcular como:
n=
2 N 2 h_ S2 300 2 2,575 2 4,8098 = 89,51 5 90 municipios = 2 2 eT S 2 150 2 + 300 2,575 2 4,8098 + Nh_

3.10.

Un prestamista se dispone a contabilizar deudas atrasadas de 10000 clientes. Necesita aproximar la deuda sin cobrar y para ello elige una muestra aleatoria de 36 clientes, los cuales adeudan en media 7500 euros con un error (cuasidesviacin tpica) de 3000 euros. Realizar una estimacin por intervalos al 95% de la deuda sin cobrar. Qu tamao de muestra deber seleccionarse para estimar la deuda pendiente con un error de muestreo inferior a 2500000 euros. Sea X la variable que mide la deuda sin cobrar. Dicha deuda total se estimar mediante:
= Nx = 1000 * 7500 = 7500000 euros X

El error de muestreo ser:


) = N 2 (1 < m (X n S 36 3000 2 ) = 1000 2 1 < = 2764,8 N n 1000 36
2

El intervalo de confianza para el total poblacional ser:


< h m (X ), X + h m (X )] = [75000<1,96(2764,8); 75000+ 1,96(2764,8)] = [65217655 [X ,9; 84782344 ,1] _ _

Para estimar la deuda pendiente con un error inferior a 2500000 euros, se debe elegir una muestra de tamao superior al valor siguiente:
n=
2 2 N 2 h_ S 10000 2 1,96 2 3000 2 = 524,19 5 525 = 2 2 2 (2500000)2 + 10000 1,96 2 3000 2 + Nh_ eT S

3.11.

En un recinto ferial se desea estimar la cantidad X gastada por visitante en sus instalaciones. Para ello, de entre los 500 visitantes de un da determinado, se seleccion una muestra aleatoria simple de 100 y a la salida del recinto ferial se les pregunt la cantidad en euros que haban gastado. Se obtuvieron los siguientes datos:

X
i =1

100

= 250

X
i =1

100

2 i

= 649,75

Hallar un intervalo de confianza al 95% para la cantidad media gastada por persona en el recinto ferial. A cuntas personas se debera haber preguntado para que, con la misma confianza, el error de la estimacin anterior no superarse los 75 euros? Cuntas personas deberan haber sido preguntadas si se hubiera deseado estimar la proporcin de personas insatisfechas con los servicios prestados en el recinto ferial con un error del 10% y una confianza del 95%?

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

137

El intervalo de confianza para la media poblacional ser:


n S n S I = x < h_ (1 < ) ; x < h_ (1 < ) N n N n 1 n 250 x = xi = = 2,50 euros n i! 100
2 2

2 n n 1 1 2 = 1 X 2 < 1 (250)2 S X 649,75 < i = i = 0,25 n <1 n 99 100 i =1 i =1

El intervalo de confianza para el gasto medio en euros por persona en la feria ser:
100 0,25 I = 2,5 < 1,96 (1 < ) ; 500 100 2,5 < 1,96 (1 < 100 0,25 ) = [2,4123; 2,5876] 500 100

Para un error en la estimacin de la media de 75 euros, el nmero de personas que ser necesario entrevistar ser:
n=
2 2 h_ NS

2 2 2 e+ N + h_ S

1,96 2 500 0,25 = 127,2761 5 128 0,075 2 500 + 1,96 2 0,24

El nmero de personas que deberan haber sido preguntadas si se hubiera deseado estimar la proporcin de personas insatisfechas con los servicios prestados en el recinto ferial con un error del 10% y una confianza del 95% sera el siguiente:
n=
2 h_ NPQ 1,96 2 500 0,5 0,5 = 80,7005 5 81 personas = 2 2 (N < 1) + h_ e_ PQ 0,10 2 499 + 1,96 2 0,5 0,5

Como no se tiene informacin sobre el valor de P, se toma P = 0,5.

3.12.

Para tomar la decisin de mantener un determinado libro como texto oficial de una asignatura, se pretende tomar una muestra aleatoria simple entre los 1250 profesores de una universidad y enviarles un cuestionario a travs del cual manifiesten si son favorables a la renovacin del libro como texto oficial. 1) Cul deber ser el nmero apropiado de profesores encuestados de entre los 1250 para obtener una estimacin sobre la proporcin de profesores favorables a la renovacin del libro de texto con un error de muestreo inferior al 12% y una confianza del 90%? 2) Si de la encuesta realizada el ao anterior se sabe que la proporcin de profesores favorables al mantenimiento del libro de texto estar entre el 75% y el 85%, cul debera ser en este caso el nmero apropiado de profesores encuestados del apartado anterior? 3) Si finalmente se decidi enviar cuestionarios a 100 profesores, de los cuales tan slo 35 no se manifestaron favorables a la renovacin del libro de texto, estimar la proporcin del nmero apropiado de profesores encuestados de entre los 1250 para obtener una estimacin.

138 Muestreo estadstico. Conceptos y problemas resueltos

El nmero apropiado de profesores a encuestar de entre los 1250 para obtener una estimacin sobre la proporcin de profesores favorables a la renovacin del libro de texto con un error de muestreo inferior al 12% y una confianza del 90% ser el siguiente:
n=
2 NPQ h_ 1,645 2 1250 0,5 0,5 = 45,2968 5 46 profesores = 2 2 (N < 1) + h_ e_ PQ 0,12 2 1249 + 1,645 2 0,5 0,5

Se ha utlizado P = 1/2 porque no se tiene informacin sobre P. Para el caso de que se estime que la proporcin oscilar entre el 75% y el 85%, en la frmula para obtener el tamao muestral se utilizar P = 0,75, pues es el que proporciona mayor variabilidad entre los posibles. Ahora tenemos:
n= 1,645 2 1250 0,75 0,25 = 34,2954 5 35 profesores 0,12 2 1249 + 1,645 2 0,75 0,25

En el ltimo apartado, como el estimador puntual de la proporcin poblacional es la proporcin muestral, tenemos:
n = 1 A (Ai =1 si el profesor i-simo mantiene el libro y Ai = 0 en caso contrario) P i n i =1

Como slo 35 profesores de los 100 deciden la no renovacin del libro de texto, tenemos: = 65 = 0,65 P 100 El error de muestreo ser:
e p = h_ N < n pq 1250 < 100 0,65 0,35 = 1,645 * = 0,0753 N <1 n 1249 100

3.13.

Una empresa industrial est interesada en el tiempo por semana que los cientficos emplean para ciertas tareas triviales. Las hojas de control del tiempo de una muestra irrestricta aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo empleado en esas tareas es de 10,31 horas, con una varianza muestral de S2 = 2,25. La compaa emplea N = 750 cientficos. Estimar el nmero total de horas-hombre que se pierden por semana en las tareas insignificantes y establecer un lmite para el error de estimacin al 95% (h_ = 2). Sea X el total de horas-hombre que se pierden por semana. Tenemos:
= Nx = 750(10,31) = 7732,5 horas X

Un lmite para el error de estimacin ser el radio del intervalo de confianza al 95%:
) = 2 N 2 (1 < h_ m ( X n S 50 2,25 ) = 2 700 2 1 < = 307,4 horas N n 750 50
2

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

139

3.14.

Una muestra irrestricta aleatoria de n = 100 estudiantes del ltimo ao de un colegio fue seleccionada para estimar: (1) la fraccin de entre los N = 300 estudiantes del ltimo ao que asistirn a una universidad, y (2) la fraccin de estudiantes que han tenido trabajos de tiempo parcial durante su estancia en el colegio. Sean Yi y Xi (i = 1, 2, , 100) las respuestas del isimo estudiante seleccionado. Estableceremos que Yi = 0 si el i-simo estudiante no planifica asistir a una institucin superior, e Yi = 1 si lo planifica. Asimismo, sea Xi = 0 si el estudiante i-simo no ha tenido trabajo durante su estancia en el colegio y sea Xi = 1 si lo ha tenido. Usando los datos de la muestra presentados en la tabla adjunta, estime P1, la proporcin de estudiantes del ltimo ao que planea asistir a una universidad y P2, la proporcin de estudiantes del ltimo ao que ha tenido un trabajo de tiempo parcial durante sus cursos en el colegio (incluyendo los veranos). Estudiante 1 2 3 4 5 6 7 . . 96 97 98 99 100 Y 1 0 0 1 0 0 0 . . 0 1 0 0 1 X 0 1 1 1 0 0 1 . . 1 0 1 1 1

Y
i =1

100

= 15

X
i =1

100

= 65

Las estimaciones de las respectivas proporciones estarn dadas por las proporciones muestrales: 100 100 = 1 Y = 15 = 0,15 = 1 X = 65 = 0,65 P P 1 i 2 i 100 i =1 100 100 i =1 100 Los lmites para los respectivos errores de estimacin al 95% estarn dados por los radios de los dos intervalos de confianza, que se calculan como sigue:
) = 2 (1 < h_ m ( P 1 Q n P 100 0,15 u 0,85 ) 1 1 = 2 1 < = 0,059 N n <1 99 300 Q n P 100 0,65 u 0,35 ) 2 2 = 2 1 < = 0,078 N n <1 99 300

) = 2 (1 < h_ m ( P 2

Hemos obtenido que el 15% de los estudiantes de ltimo ao planifica asistir a la universidad con un lmite del error de la estimacin del 5,9%, y el 65% de los estudiantes de ltimo ao ha tenido un trabajo a tiempo parcial durante su estancia en el colegio con un lmite para el error de la estimacin del 7,8%.

140 Muestreo estadstico. Conceptos y problemas resueltos

3.15.

Mediante muestreo irrestricto aleatorio se obtiene una muestra de 50 trabajadores procedente de una poblacin de 750 empleados de una multinacional. Al medir el salario mensual X en cientos de euros que perciben los trabajadores de la muestra se obtienen los siguientes datos:

X
i =1

50

= 454

X
i =1

50

2 i

= 4306

De esta muestra 20 trabajadores pertenecen al sector financiero de la multinacional, y al medir los salarios mensuales X sobre estos 20 empleados se obtienen los siguientes resultados:

X
i =1

20

= 172

X
i =1

20

2 i

= 1536

1 Estimar el salario medio mensual por trabajador y el total mensual de pagos en salarios de la multinacional para todos sus empleados y para los empleados del sector financiero, as como sus errores absolutos y relativos de muestreo. 2 Responder a las preguntas del apartado anterior para muestreo aleatorio simple con reposicin comentando resultados y comparndolos con los del apartado 1. Consideramos como poblacin todos los empleados de la multinacional y como subpoblacin todos los empleados del sector financiero de la multinacional. Para estimar la media y el total de la poblacin con n = 50 y N = 750 se tiene:

x=

Xi
i =1

50

454 = Nx = 750 = = 9,08 y X 50

X
i =1

50

= 750 u 9,08 = 6810

Las estimaciones de los errores de muestreo sern:


2 1 50 2 50 X i < X i 49 1 i =1 i =1 2 3 2 3 1 4306 454 50 ( x ) = (1 < ) V 750 50

50 = 0,07 m ( x ) = 0,07 = 0,26

(X ) = N 2V ( x ) = 750 2 u 0,07 = 39375 m ) = 39375 = 198,43 (X V


Las estimaciones de los errores relativos de muestreo (coeficientes de variacin de los estimadores) sern las siguientes:

) 198,43 (X ( x ) 0,27 v( X )=m v( x ) = m = = 0,029 (2,9%) C = = 0,029 (2,9%) y C 6810 x 9,08 X


Evidentemente, los errores relativos de muestreo coinciden al estimar la media y el total para la poblacin.

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

141

Hemos estimado que el salario medio de todos los trabajadores de la multinacional es de 908 euros mensuales y que los pagos totales mensuales de la multinacional en salarios de todos sus empleados es 681000 euros. Estas estimaciones tiene un error inferior al 3% (2,9%), lo que indica que son muy aceptables. Para estimar la media y el total de la subpoblacin con n = 50, N = 750, n1 = 20 y N1 desconocido, se tiene:

x1 =

Xi
i =1

20

n1

Xi x 172 172 1 i = 1 = N u = 750. = = 8,6 y X = 750 u = 2580 1 20 n 50 50

20

2 1 20 2 20 1 X i < X i n1 1536 < 172 2 20 1 < n i = i = 1 1 1 50 n 19 ( x ) = (1 < ) ) V = (1 < = 0,14 1 750 20 n1 N

2 1 20 2 20 1 X i < X i n 1536 < 172 2 50 n <1 i =1 i =1 n 50 (X ) = N 2 (1 < ) V = 750 2 (1 < ) 49 1 n 50 N 750 = 202354,28

Luego las estimaciones de los errores de muestreo para la subpoblacin sern:


( x ) = 0,14 = 0,374 y m )= V (X ) = 202354,28 = 450 (X ( x1 ) = V m 1 1 1

Las estimaciones de los errores relativos de muestreo (coeficientes de variacin) para la subpoblacin sern:
) 450 (X ( x1 ) 0,374 1 v( X v( x ) = m )=m = = 0,1744 (17,44%) C = = 0,043 ( 4,3%) y C 1 1 x1 8,6 2580 X1

Para la subpoblacin ya no coinciden los errores relativos de muestreo al estimar la media y el total. Hemos estimado que el salario medio de los trabajadores del sector financiero de la multinacional es de 860 euros mensuales (algo inferior a los 908 euros mensuales de media cuando se consideran todos los trabajadores) y que los pagos totales mensuales de la multinacional en salarios de sus empleados del sector financiero es 258000 euros. Estas estimaciones tienen unos errores del 4,3% y del 17,44%, respectivamente. Es mucho ms precisa la estimacin del salario medio de los empleados del sector financiero que la estimacin de los pagos totales a empleados de dicho sector. En el caso de muestreo con reposicin los estimadores son los mismos (para la poblacin y para la subpoblacin). Los errores de muestreo para la poblacin y la subpoblacin sern:

142 Muestreo estadstico. Conceptos y problemas resueltos

(x) = CR ( x ) = V m CR )= V (X ) = CR ( X m CR

(x) 0,07 V = = 0,289 1 < f 1 < 50 / 750 (X ) V 39375 = = 212,28 1 < f 1 < 50 / 750

(x ) = CR ( x1 ) = V m 1 CR )= V (X )= CR ( X m 1 1 CR

(x ) 0,14 V 1 = = 0,4 1 < f 1 < 50 / 750 (X ) 202354,28 V 1 = = 482,14 1< f 1 < 50 / 750

Se observa que los errores de muestreo al estimar la media y el total, tanto para la poblacin como para la subpoblacin, son mayores en el caso de muestreo con reposicin que en el caso de muestreo sin reposicin. Las estimaciones de los errores relativos de muestreo (coeficientes de variacin) para la poblacin y la subpoblacin sern:
6810 CR ( x1 ) 0,4 CR ( X 1 ) 482,1 v( x ) = m v( X )=m C = = 0,046 ( 4,6%) y C = = 0,186 (18,6%) 1 1 x1 8,6 2580 X 1
CR ( x ) 0,289 v( x ) = m C = = 0,031 (3,1%) x 9,08

v( X ) = m CR ( X ) = 212,28 = 0,031 (3,1%) y C X

Los errores relativos de muestreo al estimar la media y el total tambin son mayores en el caso de muestreo con reposicin, tanto para la poblacin como para la subpoblacin.

3.16.

La tabla adjunta muestra la distribucin de frecuencias del nmero de residentes en cada una de las 197 ciudades de Estados Unidos que tenan ms de 50000 habitantes en 1940.
N de residentes en miles Frecuencias N de residentes en miles Frecuencias de habitantes (clases) absolutas de habitantes (clases) absolutas 50 - 100 105 650 -700 2 100 - 150 36 700 - 750 0 150 - 200 13 750 - 800 1 200 - 250 6 800 - 850 1 250 - 300 7 850 - 900 2 300 - 350 8 900 - 950 0 350 - 400 4 950 - 1000 0 400 - 450 1 1000 - 1050 0 450 - 500 3 1500 - 1550 1 500 - 550 0 1600 - 1650 1 550 - 600 2 1900 - 1950 1 600 - 650 1 3350 - 3400 1 7450 - 7500 1

Calcular los errores absoluto y relativo de muestreo del nmero total de habitantes estimado en las 197 ciudades utilizando los siguientes mtodos de muestreo: 1) Muestro irrestricto aleatorio con tamao de muestra n = 50. 2) Muestreo que consiste en seleccionar las cinco ciudades ms grandes y posteriormente una muestra irrestricta aleatoria de tamao 45 para las 192 ciudades restantes.

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

143

Comenzaremos calculando la cuasivarianza para la distribucin de frecuencias dada relativa a los tamaos de las ciudades. Considerando las marcas de clase se tiene:
S2 =
2 1 197 1 197 2 2 n X n X 85363125 < (46275) 197 = 380067,33 < i i i i N = N <1 i =1 197 < 1 i =1

El error de muestreo para una muestra aleatoria simple sin reposicin de tamao 50 es:
) = V (X ) = N 2 (1 < m (X
197

n S2 50 380067,33 ) = 197 2 (1 < ) = 14836,79 miles de personas N n 197 50

) = 14836,79 * 100 = 32% (error relativo). Como X = ni X i = 46275 Cv( X 46275 i =1

En el segundo apartado consideramos la subpoblacin de las cinco ciudades mayores (ltimos cinco elementos de la tabla de frecuencias) que no presenta variabilidad porque se eligen todos sus elementos para la muestra, y en la subpoblacin de las 192 ciudades restantes elegimos una muestra de tamao 45. En esta ltima subpoblacin calcularemos el error de muestreo (N1 = 192 n1 = 45).
S1 =
2 2 1 192 1 192 2 2 n X n X 9425000 < (30350 ) 192 = 24227,68 < i i i i N 1 = N1 < 1 i =1 192 < 1 i =1

) = V (X ) = N 2 (1 < m (X
192

n1 S12 45 24227,268 ) = 192 2 (1 < ) = 3898,09 miles de personas N 1 n1 192 45

) = 3898,09 * 100 = 12,84% (error relativo). Como X 1 = ni X i = 30350 Cv( X 30350 i =1

3.17.

Dos dentistas A y B hicieron una encuesta para investigar el estado de los dientes de 200 nios. El doctor A seleccion una muestra irrestricta aleatoria de 20 nios y cont el nmero de dientes con caries de cada nio, con los siguientes resultados:

N de dientes con caries por nio N de nios

0 1 2 3 4 5 6 7 8 9 10 8 4 2 2 1 1 0 0 0 1 1

El doctor B, utilizando las mismas tcnicas dentales, examin a los 200 nios y slo registr aquellos que no tenan caries, encontrando que 60 nios no tenan dientes daados. 1) Estudiar qu doctor obtiene estimaciones ms precisas del nmero total de dientes con caries en los nios cuantificando la ganancia en precisin. 2) Realizar las estimaciones anteriores mediante intervalos de confianza al 95%. Comentar los resultados comparndolos con los del apartado anterior.

144 Muestreo estadstico. Conceptos y problemas resueltos

Para el doctor A, la estimacin del nmero de dientes con caries ser:

= Nx = 200 0 u 8 + 1 u 4 + L + 10 u 1 = 200 u 2,1 = 420 dientes con caries. X 20


El error de muestreo de esta estimacin es:
)= V (X ) = N 2 (1 < (X m 2 n S 20 8,62 ) = 200 2 (1 < ) = 123,04 N n 200 20

2 = S

2 1 1 10 10 2 2 252 < (42 ) 20 = 8,62 n i X i < ni X i n = 20 < 1 i =1 i =0 19

h m La estimacin por intervalos al 95% es IC ( X ) = X _ ( X ) = 420 1,96 u 123,04 .

Para el doctor B se considera la subpoblacin de los 140 nios con caries resultante de eliminar de los 200 nios iniciales los 60 que no tenan caries. En cuanto a la muestra, hay que eliminar de la distribucin inicial los ocho nios que tienen cero caries (20<8=12). La distribucin muestral de frecuencias de esta subpoblacin queda como sigue:

N de dientes con caries por nio N de nios


Tenemos entonces N1 = 140 y n1 = 12.

1 2 3 4 5 6 7 8 9 10 4 2 2 1 1 0 0 0 1 1

= N x = 140 1 u 4 + L + 10 u 1 = 140 u 3,5 = 490 dientes con caries. X 1 1 1 12

El error de muestreo de esta estimacin es:


)= V (X ) = N 2 (1 < (X m 1 1 1 2 n1 S 12 9,545 ) 1 = 140 2 (1 < ) = 419,370 140 12 N 1 n1

2 = S 1

2 1 1 10 10 2 2 n X n X 252 < (42) 12 = 9,545 < i i i i n1 = 12 < 1 i =1 11 i =1

Se observa que la precisin del doctor B es bastante menor (error mayor).


h m La estimacin por intervalos al 95% es IC ( X 1 ) = X 1 _ ( X 1 ) = 490 1,96 u 419,37 .

Muestreo aleatiorio simple sin y con reposicin. Subpoblaciones

145

EJERCICIOS PROPUESTOS
3.1.
Consideramos una poblacin finita de seis elementos sobre los que medimos una variable X, obteniendo como resultados Xi = {8, 3, 1, 11, 4, 7}, i = 1, ..., 6. Mediante muestreo irrestricto aleatorio se extraen muestras de tamao 2. Se pide: 1) Cuntos elementos tiene el espacio muestral? Especificar dicho espacio muestral y las probabilidades asociadas a las muestras. Hallar las distribuciones en el muestreo de los estimadores de la media y del total de X, as como de los estimadores de sus varianzas. S2 Comprobar la insesgadez de los estimadores y que se cumple V ( x ) = (1 < f ) , n 2 2 ) = S 2 , as como que el estimador T = Total muestral no es ) = N 2 (1 < f ) S y E ( S V (X n insesgado del total poblacional X. 2) Hallar el tamao de muestra necesario para que el error de muestreo sea 2 al estimar la media de la poblacin. Y al estimar el total poblacional? Hallar tambin el tamao de muestra necesario para que el error relativo de muestreo sea 0.48 en las mismas estimaciones. Calcular todos los tamaos de muestra anteriores en presencia de un coeficiente de confianza adicional del 95%. Comentar los resultados. 3) Contestar a todas las preguntas del apartado anterior para muestreo con reposicin. Comparar los resultados con los de muestreo sin reposicin. Comentar los resultados. 4) A partir de qu tamao poblacional N el aumento del tamao muestral n no interviene en el error absoluto de muestreo para la estimacin de la media? Cunto valdr N con un coeficiente de confianza del 95%? Hallar intervalos de confianza al 95% para la media y el total basados en las muestras de elementos pares. Si al medir una variable X sobre los elementos de la poblacin se obtienen los valores {1, 3, 4}, cul de todos los mtodos de muestreo es ms preciso al estimar el total poblacional mediante un estimador lineal insesgado apropiado?

3.2.

Mediante muestreo irrestricto aleatorio se trata de estimar la proporcin y el total de piezas correctas producidas en un proceso industrial en el que se fabrican un total de 6000 unidades. Una muestra piloto ha suministrado 1/3 de piezas defectuosas. Se pide: 1) Hallar el tamao de muestra necesario para que el error de muestreo sea de una dcima al estimar la proporcin de piezas correctas producidas en el proceso industrial. Hallar tambin el tamao de muestra necesario para que el error relativo de muestreo sea de 20% en la misma estimacin. 2) Hallar el tamao de muestra necesario para que el error de muestreo sea de 600 unidades al estimar el total de piezas correctas con un coeficiente de confianza del 99,7% y suponiendo muestreo aleatorio simple con reposicin. Hallar dicho tamao en las condiciones anteriores pero para un error relativo de muestreo del 10%.

146 Muestreo estadstico. Conceptos y problemas resueltos

3.3.

Con el objetivo del anlisis de la divisibilidad de un conjunto de nmeros consideramos la poblacin virtual Xi = {2, 13, 17, 23, 6, 1}, i = 1, ..., 6. Mediante muestreo irrestricto aleatorio se extraen muestras de tamao 2. 1) Se trata de estimar los parmetros poblacionales PROPORCIN DE NMEROS PRIMOS y TOTAL DE NMEROS PRIMOS mediante estimadores insesgados basados en las muestras del espacio muestral. Hallar la distribucin en el muestreo de dichos estimadores y de las estimaciones insesgadas de sus varianzas. Comprobar todas las insesgadeces y que se cumplen N N PQ PQ 2 < < N N 1 1 2 ) = S 2 , as como , V ( A) = N (1 < f ) y E (S las relaciones V ( P ) = (1 < f ) n n que el estimador T = Total de nmeros primos en las muestras no es insesgado del total de clase poblacional A. 3) Hallar el tamao de muestra necesario para que el error de muestreo sea 1/4 al estimar la proporcin de nmeros primos de la poblacin. Hallar tambin el tamao de muestra necesario para que el error relativo de muestreo sea del 2% en la misma estimacin. 4) Hallar intervalos de confianza al 99% (_ = 0,01) para el total y la proporcin de nmeros primos en la poblacin basados en las muestras cuyos dos elementos son nmeros no primos. Tenemos como dato conocido que F-1(0.995)= 2,57, siendo F la funcin de distribucin de la normal (0,1). Comentar los resultados. 5) Hallar el tamao de muestra necesario para que el error de muestreo sea 6 al estimar el total de nmeros primos de la poblacin con un coeficiente de confianza del 99% y suponiendo muestreo aleatorio simple con reposicin. Hallar dicho tamao en las condiciones anteriores pero para un error relativo de muestreo del 90%. Comentar los resultados.

3.4.

Un investigador est interesado en estimar la ganancia en peso total en 0 a 4 semanas de N = 1000 polluelos alimentados con una nueva racin. Obviamente, pesar cada ave sera tedioso y lento. Por lo tanto, determinar el nmero de polluelos que sern seleccionados en este estudio para estimar con un lmite para el error de estimacin igual a 1000 gramos. Muchos estudios similares sobre nutricin de polluelos se han llevado a cabo en el pasado. Usando los datos de esos estudios, el investigador encontr que 2, la varianza poblacional, fue aproximadamente igual a 36,00 gramos. Determine el tamao de muestra requerido. Una muestra irrestricta aleatoria de n = 100 medidores de agua es controlada dentro de una comunidad para estimar el promedio de consumo de agua diario por casa durante un periodo estacional seco. La media y la varianza muestrales fueron y = 12,5 y s 2 = 1252 . Si suponemos que hay N = 10000 casas dentro de la comunidad, estimar , el promedio de consumo diario verdadero, y establezca un lmite para el error de estimacin.

3.5.

CAPTULO MUESTREO ESTRATIFICADO SIN Y CON REPOSICIN

OBJETIVOS
1. Presentar el concepto de muestreo estratificado. 2. Comprender las especificaciones del muestreo estratificado. 3. Analizar los estimadores y sus errores en muestreo aleatorio estratificado sin reposicin. 4. Estimar los errores en muestreo aleatorio estratificado sin reposicin. 5. Analizar los estimadores y sus errores en muestreo estratificado con reposicin. 6. Estimar los errores en muestreo aleatorio estratificado sin reposicin. 7. Comprender el concepto de afijacin de la muestra. 8. Estudiar los distintos tipos de afijacin. 9. Especificar los errores de los estimadores en funcin de los distintos tipos de afijacin. 10. Analizar el tamao de la muestra en general. 11. Estudiar el tamao de la muestra en funcin de los distintos tipos de afijacin. 12. Comparar la eficiencia de los distintos tipos de afijacin. 13. Presentar el concepto de postestratificacin. 14. Analizar estimadores y errores en postestratifiaccin.

148 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Concepto de muestreo estratificado. 2. Muestreo estratificado sin reposicin. Estimadores y errores. 3. Muestreo estratificado con reposicin. Estimadores y errores. 4. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para muestreo sin reposicin. 5. Afijacin de la muestra. Tipos de afijacin y errores de los estimadores para muestreo con reposicin. 6. Tamao de la muestra para muestreo sin reposicin. 7. Tamao de la muestra para muestreo con reposicin. 8. Comparacin de eficiencias en muestreo estratificado. 9. Postestratificacin. 10. Problemas resueltos 11. Ejercicios propuestos

Muestreo estratificado sin y con reposicin

149

CONCEPTO DE MUESTREO ESTRATIFICADO


Supongamos que la poblacin objeto de estudio, formada por N unidades elementales, se divide en L subpoblaciones o estratos, los cuales constituyen una particin, es decir, no se solapan y la unin de todos ellos es el total. De forma ms precisa podemos decir que en el muestreo estratificado, una poblacin heterognea con N unidades {ui} i = 1, 2, ..., N se subdivide en L subpoblaciones disjuntas lo ms homogneas posible (que forman una particin) de tamaos N1, N2, ..., NL., denominadas estratos {uhi } h =1,2 ,L, L .
i =1, 2 ,L N h

El muestreo estratificado es un tipo de muestreo de unidades elementales ya que la muestra estratificada de tamao n se obtiene seleccionando nh elementos (h = 1, 2, ..., L) de cada uno de los L estratos en los que se subdivide la poblacin de forma independiente. Si la seleccin en cada estrato es aleatoria simple y de forma independiente, el muestreo se denomina muestreo aleatorio estratificado, pero en general nada impide utilizar diferentes tipos de seleccin en cada estrato. Si el muestreo aleatorio en cada estrato es sin reposicin, el muestreo estratificado es sin reposicin, y si el muestreo aleatorio en cada estrato es con reposicin, el muestreo estratificado es con reposicin. El grfico siguiente muestra la poblacin dividida en h estratos de tamao Nh, en cada de los cuales elegimos de modo independiente nh unidades (por muestreo aleatorio simple si no se especifica otra cosa) para la muestra estratificada de tamao n..

Nh nh N1 n1

N4 n4 N2 n2 N3 n3

POBLACIN A continuacin se expresa de modo esquemtico la formacin de estratos en la poblacin y la formacin de la muestra estratificada de la forma siguiente: POBLACIN

u11 u12 Lu 1 N1 u 21 u 22 Lu 2 N 2 L Se divide en L estratos {u1 u 2 Lu N } A Nh = N L L L L L L h =1 u u Lu LN L L1 L 2

MUESTRA

u11 u12 Lu 1n u 21 u 22 Lu 2 n L Se extrae en cada estrato {u1 u 2 Lu n } A nh = n LLLLLL h =1 u u Lu Ln L1 L 2


1 2

150 Muestreo estadstico. Conceptos y problemas resueltos

El principal objetivo del muestreo estratificado es mejorar la precisin de las estimaciones reduciendo los errores de muestreo. Intenta minimizar la varianza de los estimadores mediante la creacin de estratos lo ms homogneos posible entre sus elementos (para que los estimadores del estrato sean precisos) y lo ms heterogneos entre s (para tener el mximo de informacin). Otros objetivos del muestreo estratificado son los siguientes: 1. Obtener estimaciones separadas para cada uno de los estratos. 2. Hacer un uso ms racional de la organizacin administrativa. 3. Paliar los defectos del marco, aislando esos defectos en algunos estratos. Es muy conveniente utilizar muestreo estratificado cuando existe una variable precisa para la estratificacin cuyos valores permitan dividir convenientemente la poblacin en estratos homogneos. Las variables utilizadas para la estratificacin debern estar correlacionadas con las variables objeto de la investigacin. Por ejemplo, para realizar estadsticas sobre los ingresos de las familias en una ciudad puede estratificarse segn los valores de la variable cualificacin profesional de los cabezas de sus componentes (a ms cualificacin normalmente hay ms ingresos, con lo que los estratos resultarn homogneos). Si se quiere estudiar el volumen de negocio de los establecimientos de venta al pblico de una ciudad, se puede utilizar como variable de estratificacin su nmero de empleados, y clasificar (estratificar) los establecimientos en grandes superficies, supermercados, tiendas grandes, tiendas pequeas y otros, segn el nmero de empleados; as resulta una divisin de los establecimientos en grupos homogneos. Si se quiere estudiar caractersticas de hospitales se puede utilizar la variable de estratificacin nmero de pacientes, para estratificarlos en grandes hospitales, clnicas medias y clnicas pequeas, resultando as grupos de hospitales con problemtica similar. Para realizar estadsticas en el sector educativo puede utilizarse la variable de estratificacin nivel de enseanza, tomando como estratos los niveles de enseanza infantil, enseanza primaria, enseanza secundaria obligatoria, bachillerato y enseanza universitaria (cada estrato tiene as unas caractersticas muy peculiares que lo hacen homogneo).

MUESTREO ESTRATIFICADO SIN REPOSICIN: ESTIMADORES Y ERRORES


En muestreo estratificado un parmetro poblacional puede escribirse como e =

Y
h i

Nh

hi

El parmetro e puede ser estimado mediante la suma extendida a todos los estratos de los estimadores lineales insesgados de Horvitz y Thompson en cada estrato, es decir, mediante:

e =

/
h i

nh

Y hi
hi

donde / hi es la probabilidad de que la unidad u hi pertenezca a la muestra ( Xh ) de nh unidades, obtenida de entre las Nh unidades del estrato h-simo. Para los diferentes estimadores tendremos las siguientes expresiones:

Muestreo estratificado sin y con reposicin

151

L nh L nh L L L X hi X hi 1 nh = = N h X hi = N h xh = X e = X Yhi = X hi X st = h n N n / h=1 i =1 h=1 i =1 h h=1 h=1 h=1 hi h h i =1 1 4 24 3 =x X h h


n n n L L L L X hi = x = 1 h X hi = 1 h X hi = Nh 1 h X = W x X hi st st h h N N nh i=1 h=1 N i =1 / hi h=1 N i =1 nh N h h=1 { h=1 Wh

e = X Yhi =

L L L L nh Ahi L nh Ahi 1 nh =A e = A Yhi = Ahi Ast = = = N h Ahi = N h P h h / n N n h =1 h =1 h =1 i =1 h h =1 h=1 i =1 h h i =1 hi 1 4 24 3 P h


L L L L Ahi Ahi Ahi N h 1 nh 1 1 e = P Yhi = Pst = = = Ahi = Wh P h / N N N n N N n h =1 i =1 h =1 i =1 h h =1 { h i =1 h =1 hi h 1 4 24 3 W
h

nh

nh

P h

El estimador del total poblacional en muestreo estratificado aleatorio es la suma de los estimadores del total en cada estrato y los factores de elevacin son Nh / nh. El estimador de la media en muestreo estratificado aleatorio es la media ponderada de los estimadores de la media en cada estrato, siendo los coeficientes de ponderacin Wh = Nh/N de suma unitaria, que a su vez son los factores de elevacin. El estimador del total de clase en muestreo estratificado aleatorio es la suma de los estimadores del total de clase en cada estrato. El estimador de la proporcin en muestreo estratificado aleatorio es la media ponderada de los estimadores de la proporcin en cada estrato, siendo los coeficientes de ponderacin Wh = Nh/N de suma unitaria. Las varianzas de los estimadores y sus errores son (fh = nh / Nh):
2 L L S h2 L 2 = N 2 (1 < f ) S h , V (x ) = V ( ) V X W x W f 1 = < h h h st h h st h nh nh h =1 h =1 h =1 L L = N 2 (1 < f ) N h Ph Q h , V P = W 2 (1 < f ) N h Ph Q h V A h h st h st h N h < 1 nh N h < 1 nh h =1 h =1

( )

( )

( )

L L 2 2 S S 2 2 h ( ) ( ) ( ) V X st = N h 1 < f h , V X st = W h 1 < f h h nh nh h =1 h =1 L L Q Q P P 2 2 h h h h = A ( ) ( ) V N 1 < f , V P = W 1 < f st h h st h h nh < 1 nh < 1 h =1 h =1

( )

( )

( )

2 2 = cuasivarianza muestral en el estrato h. Sh = cuasivarianza poblacional en el estrato h, S h

MUESTREO ESTRATIFICADO CON REPOSICIN: ESTIMADORES Y ERRORES


Para el caso del muestreo estratificado con reposicin los estimadores son los mismos, y sus varianzas son las siguientes:
2 2 L L L L PQ = N 2 Ph Qh , V P = N 2 m h , V ( x ) = W 2 m h , V A V X = Wh2 h h st h st h st h st nh nh nh nh h =1 h =1 h =1 h =1

( )

( )

( )

152 Muestreo estadstico. Conceptos y problemas resueltos

Las estimaciones de los errores (estimaciones de varianzas) son las siguientes:


L L L L 2 2 2 Sh 2 Sh = N 2 Ph Qh , V A P = W 2 Ph Qh , V (X st ) = Wh V X st = N h , V st h st h nh nh nh < 1 nh < 1 h =1 h =1 h =1 h =1

( )

( )

( )

AFIJACIN DE LA MUESTRA: TIPOS DE AFIJACIN Y ERRORES DE LOS ESTIMADORES PARA MUESTREO SIN REPOSICIN
Se llama afijacin de la muestra al reparto, asignacin, adjudicacin, adscripcin o distribucin del tamao muestral n entre los diferentes estratos; esto es, a la determinacin de los valores de nh que verifiquen n1 + n2 + .... + nL = n. Pueden establecerse muchas afijaciones o maneras de repartir la muestra entre los estratos, pero las ms importantes son: la afijacin uniforme, la afijacin proporcional, la afijacin de varianza mnima y la afijacin ptima.

Afijacin uniforme
Consiste en asignar el mismo nmero de unidades muestrales a cada estrato, con lo que se tomarn todos los nh iguales a n/L, aumentando o disminuyendo este tamao en una unidad si n no fuese mltiplo de L, esto es, nh = E(n/L) + 1, donde E denota la parte entera.

n h = k h = 1LL n h = k n = Lk f h =
h =1 h =1

nh k = Nh Nh

Para este tipo de afijacin, las varianzas de los estimadores y sus estimaciones se hallan sustituyendo en las frmulas generales fh por k/Nh. Este tipo de afijacin da la misma importancia a todos los estratos, en cuanto a tamao de la muestra, con lo cual favorecer a los estratos de menor tamao y perjudicar a los grandes en cuanto a precisin. Slo es conveniente en poblaciones con estratos de tamao similar.

Afijacin proporcional
Consiste en asignar a cada estrato un nmero de unidades muestrales proporcional a su tamao. Las n unidades de la muestra se distribuyen proporcionalmente a los tamaos de los estratos expresados en nmero de unidades. Tenemos:
L L L n n h = N h k n h = N h k = k N h n = kN k = = f N h =1 h =1 1 2 3 h =1 1 2 3 n N

fh =

nh N k = h =k = f Nh Nh {
/ hi

Wh =

N h nh k nh = = N nk n

Para este tipo de afijacin, las varianzas de los estimadores sern:

Muestreo estratificado sin y con reposicin


L L = (1 < k ) N u S 2 , V (x ) = (1 < k ) W u S 2 VX st h h st h h k h=1 n h=1 ( ( 1 < k ) L Nh2 1 < k ) L Nh2 N V Ast = u PhQh , V Pst = u PhQh k h=1 Nh <1 k h=1 Nh <1

153

( )

( )

( )
L

En afijacin proporcional los estimadores de media y total pueden expresarse como sigue:
L L = N x = nh x = 1 X st h h h K h =1 h =1 k

nh x h = { h =1
x h nh

x
h =1

k
L

Total muestral x = f Fraccion demuestreo

xh L L nh Total muestral 1 L h =1 = X st = x st = Wh x h = x h = nh x h = { n h =1 x n n Tamao de muestra h =1 h =1 n


h h

A la vista de los resultados anteriores, en afijacin proporcional, podemos asegurar lo siguiente: Las fracciones de muestreo en los estratos son iguales y coinciden con la fraccin global de muestreo, siendo su valor la constante de proporcionalidad. Los coeficientes de ponderacin Wh se obtienen exclusivamente a partir de la muestra, pues para su clculo slo son necesarios valores muestrales (nh y n). El estimador insesgado para el total poblacional puede expresarse como el cociente entre el total muestral y la fraccin de muestreo, o lo que es lo mismo, como el producto del total muestral por la inversa de la fraccin de muestreo. Similar propiedad tiene el estimador insesgado para el total de clase (producto del total de clase muestral por la inversa de la fraccin de muestreo). El estimador insesgado para la media poblacional puede expresarse como el cociente entre el total muestral y el tamao de la muestra. Similar propiedad tiene el estimador insesgado para la proporcin poblacional (cociente entre el total de clase muestral y el tamao de la muestra). Como / hi =

nh = k = f, todas las unidades de la poblacin tienen la misma probabilidad Nh

de figurar en la muestra de n unidades; es decir, estamos en el caso de muestras autoponderadas.

Afijacin de mnima varianza (o afijacin de Neyman)


La afijacin de mnima varianza o afijacin de Neyman consiste en determinar los valores de nn (nmero de unidades que se extraen del estrato h-simo para la muestra) de forma que para un tamao de muestra fijo igual a n la varianza de los estimadores sea mnima.

154 Muestreo estadstico. Conceptos y problemas resueltos

Nh Sh NhSh W S N La expresin para nh es n h = n u L =nu L =nu L h h . Nh NhSh Sh Wh S h h =1 h =1 N h =1


Vemos que los valores de nh son proporcionales a los productos N h u S h y en el supuesto de que Sh = S, h = 1, 2, ..., L esta afijacin de mnima varianza coincidira con la proporcional, tal y como se ve a continuacin:

S h = S nh = n u

NhS

N
h =1

= S

nN h n = kN h con k = N N

La utilidad de esta afijacin es mayor si hay grandes diferencias en la variabilidad de los estratos. En otro caso, la mayor sencillez y autoponderacin de la afijacin proporcional hacen preferible el empleo de sta. Una vez calculados los nh para afijacin de mnima varianza, vamos a ver cunto vale la varianza del estimador de la media y del total para este tipo de afijacin. Tenemos:

1 L 1 V ( x st ) = Wh S h < n h =1 N

L 1 = 1 V X Nh Sh < , W S st h n h =1 N h =1
L 2 h

( )

N
h =1

2 Sh

Si se quiere la afijacin y la expresin de la varianza mnima para el estimador de la proporcin y el total de clase, basta sustituir en la frmula anterior Sh2 por PhQhNh/(Nh-1).

Afijacin ptima
La afijacin ptima consiste en determinar los valores de nh (nmero de unidades que se extraen del estrato h-simo para la muestra) de forma que para un coste fijo C la varianza de los estimadores sea mnima. El coste fijo C ser la suma de los costes derivados de la seleccin de las unidades muestrales de los estratos; es decir, si ch es el coste por unidad de muestreo en el estrato h, el coste total de seleccin de las nh unidades muestrales en ese estrato ser chnh. Sumando los costes chnh para los L estratos tenemos el coste total de seleccin de la muestra estratificada. Podemos escribir que n h = n u

Nh Sh

ch ch

Nh Sh
h =1

= nu

Wh S h

ch ch
c h y en el

W
h =1

Sh

Vemos que los valores de nh son proporcionales a los productos N h u S h

supuesto de que Ch = k h = 1, 2, ..., L (coste constante en todos los estratos) la afijacin ptima coincide con la de mnima varianza, y si adems Sh = S, h = 1, 2, ..., L la afijacin ptima coincidir con la de mnima varianza y con la proporcional. Valor de la varianza mnima Una vez calculados los nh para afijacin ptima, vamos a ver cunto vale la varianza del estimador de la media y del total para este tipo de afijacin. Tenemos:

Muestreo estratificado sin y con reposicin

155

V ( x st ) =

1 L Wh S h n h =1

L 1 c h Wh S h c h < h =1 N L 1 c h N h S h c h < h =1 N

W S
h =1 L h

2 h

L = 1 V X Nh Sh st n h =1

( )

N
h =1

2 Sh

Si se quiere la afijacin ptima y la expresin de la varianza mnima para el estimador de la proporcin y el total de clase, basta sustituir en la frmula anterior Sh2 por PhQhNh/(Nh-1).

AFIJACIN DE LA MUESTRA: TIPOS DE AFIJACIN Y ERRORES DE LOS ESTIMADORES PARA MUESTREO CON REPOSICIN
Dada la forma en que estn definidos los clculos de los nh para las afijaciones uniforme y proporcional, dichas afijaciones no van a verse afectadas por el hecho de que el muestreo sea con o sin reposicin. Sin embargo, s variarn las varianzas de los estimadores. Las afijaciones de mnima varianza y ptima s van a verse afectadas por la existencia de reposicin o no, ya que el clculo de nh depende de las varianzas en los estratos. Afijacin uniforme Para este tipo de afijacin, las varianzas de los estimadores sern:
hQ h hQ h = N2 P = N2 mh , V (x ) = W 2 mh , V A = W 2 P , VP VX st h st h st h st h k k k k h=1 h=1 h=1 h=1 L 2 L 2 L L

( )

( )

( )

Afijacin proporcional Para este tipo de afijacin las varianzas de los estimadores sern:
L L L PQ 1 L = 1 N P Q , V (x ) = 1 W m 2 , V P = 1 N m 2, V A = VX Wh h h st h h st h h h st h h st k h=1 k h=1 n h=1 n h=1 k

( )

( )

( )

Afijacin de mnima varianza (o afijacin de Neyman) Tenemos:

1 L 1 L = nu L , V ( x st ) = Wh m h , V ( x st ) = N hm h nh = n u L n h =1 n h =1 Whm h N hm h
h =1 h =1

Whm h

N hm h

Si se quiere la afijacin de mnima varianza y la expresin de la varianza mnima para el estimador de la proporcin y el total de clase basta sustituir en la frmula anterior mh2 por PhQh.

156 Muestreo estadstico. Conceptos y problemas resueltos

Afijacin ptima Tenemos:

Wh m h nh = n u ch

N hm h =nu ch

h =1

Wh m h ch

h =1

N hm h ch

V ( x st ) =

1 L Wh m h n h =1

L c h Wh m h c h , h =1

L = 1 V X Nh m h st n h =1

( )

L c h N h m h c h h =1

Si se quiere la afijacin ptima y la expresin de la varianza mnima para el estimador de la proporcin y el total de clase basta sustituir en las fmulas anterioriores mh2 por PhQh.

TAMAO DE LA MUESTRA PARA MUESTREO SIN REPOSICIN


Vamos a analizar ahora el tamao de muestra estratificada necesario para cometer un determinado error de muestreo conocido de antemano. Distinguiremos los casos de error de muestreo dado con y sin coeficiente de confianza adicional y, adems, distinguiremos entre los diferentes tipos de afijacin de la muestra.
Tipo de error A Parmetro ? Absoluto proporcional Absoluto varianza mnima L Wh Sh h =1 L 1 2 2 e + Wh Sh N h =1
2

Absoluto y coeficient e de confianza adicional proporcion al

Absoluto y coeficient e de confianza adicional varianza mnima L Wh Sh h =1 L 2 e 1 2 + Wh Sh 2 N h =1 h_

Media

h =1 2 L

2 Wh Sh

e
2 h =1 2 h_

2 Wh Sh

1 e + N N

h =1

2 Wh Sh

+ N

Total

2 N h Sh 2 h h

e2 +

h =1 L

L N h Sh h =1

1 N

W S
h =1 2 Nh Sh 2 h h L

2 h h

h =1

N S
h =1

e2 +

N S
h =1

2 h h 2 L

2 h_

N S
h =1

h_

L N h Sh h =1 L 2 e 2 + Nh Sh 2

h =1

Proporcin

e2 + N
L

Nh Wh PhQh Nh < 1 h =1 1 N

W
h =1

Nh PhQh Nh < 1

Nh Wh PhQh h =1 < 1 N h L N 1 2 h e + Wh PhQh N h =1 Nh < 1

e2
2 h_

Nh Wh PhQh Nh < 1 h =1 1 N

+ N

W
h =1

Total de clase

Nh

e2 +

h =1 L

Nh PhQh Nh < 1
h

N
h =1

Nh PhQh Nh < 1

L Nh Nh PhQh h =1 Nh < 1 L Nh 2 PhQh e + Nh Nh < 1 h =1

Nh PhQh Nh < 1

Nh Wh PhQh h =1 < 1 N h Nh 1 L e2 + Wh PhQh 2 Nh < 1 N h =1 h_

h =1

Nh

Nh PhQh Nh < 1
h

2 h_

N
h =1

Nh PhQh Nh < 1

L Nh Nh PhQh h =1 Nh < 1 L 2 Nh e + PhQh Nh 2 Nh < 1 h_ h =1

TAMAO DE LA MUESTRA PARA MUESTREO CON REPOSICIN


Vamos a analizar ahora el tamao de muestra estratificada con reposicin necesario para cometer un determinado error de muestreo conocido de antemano. Distinguiremos los casos de error de muestreo dado con y sin coeficiente de confianza adicional y, adems, distinguiremos entre los diferentes tipos de afijacin de la muestra.

Muestreo estratificado sin y con reposicin


Tipo de error A Parmetro ?

157

Absoluto proporcional

Absoluto varianza mnima Whm h = 1 h 2 e


2

Absoluto y coeficiente proporcional

Absoluto y coeficiente varianza mnima L Whm h = 1 h 2 2 e / h_

de confianza adicional de confianza adicional

Media

W m
h =1 h

2 h

W m
h =1 2 L h 2

2 h

e N

e / h_
h =1 2 2 N hm h 2

Total
L

h =1

2 N hm h 2

e
h =1

N hm h h =1 2 e

N
2

e / h_

L N hm h h =1 2 2 e / h_

Proporcin

W P Q
h h

e2
h h h

L Wh Ph Qh h =1 e2

W P Q
h =1 h h 2 2 e 2 / h_ L

L Wh Ph Qh h =1 2 e 2 / h_

N Total de clase

N PQ
h =1

e2

N h Ph Qh h =1 e2

N PQ
h =1 2 h h 2 e / h_

L N h Ph Qh h =1 2 e 2 / h_

COMPARACIN DE EFICIENCIAS EN MUESTREO ESTRATIFICADO Muestreo sin reposicin


Vamos a realizar ahora comparaciones de eficiencias a partir de la expresin de S2. Tenemos:
S2 =

W
h =1 2

2 h S h + W h (X h < X ) L 2 h =1

2 S2 1 L 1 L = W h S h2 + W h (X h < X ) n n h =1 n h =1

2 S 1< f L 1< f L W h S h2 + (1 < f ) = W h (X h < X ) V MAS ( x ) * V MEP ( x ) ? n h =1 h =1 1 424 3 La igualdad se da 1n 4 42 44 3 1n 44 4 24 4 4 3 si X = X h =1,L, L V MAS ( x ) *0 V MEP ( x )
h

Hemos visto que el muestreo estratificado con afijacin proporcional es ms preciso que el muestreo aleatorio simple, producindose la igualdad de precisiones cuando las medias de los estratos son todas iguales. Por tanto, la ganancia en precisin del muestreo estratificado respecto del aleatorio simple ser mayor cuanto ms distintas entre s sean las medias de los estratos; es decir, para que el muestreo estratificado sea preciso es conveniente que los estratos sean heterogneos entre s en media, afirmacin que ya conocamos desde el comienzo del tema y que constituye una de las especificaciones clsicas en el muestreo estratificado.
V MEP ( x ) < V MEMV ( x ) =
2 1 L 1< f L 1 2 W S < W S < h h h h n n N 1 2 3 h =1 h =1 1 1 < n N

W S
h h =1

2 h

=
L

L L 1 Wh S h2 < Wh S h n h =1 h =1

1 L = Wh S h < S n h =1

? La igualdad se da si S h = S h =1,L, L

0 con S = Wh S h
h =1

Luego VMEP ( x ) < VMEMV ( x ) * 0 VMEP ( x ) * VMEMV ( x )

158 Muestreo estadstico. Conceptos y problemas resueltos

El muestreo estratificado con afijacin de mnima varianza es ms preciso que el muestreo estratificado con afijacin proporcional, producindose la igualdad de precisiones cuando las cuasidesviaciones tpicas de los estratos son todas iguales. Por tanto, la ganancia en precisin del muestreo estratificado con afijacin de mnima varianza respecto del muestreo estratificado con afijacin proporcional ser mayor cuanto ms distintas entre s sean las cuasidesviaciones tpicas de los estratos; es decir, para que el muestreo estratificado sea ms preciso es conveniente que los estratos sean heterogneos entre s en desviacin tpica, afirmacin que ya conocamos desde el comienzo del tema y que constituye una de las especificaciones clsicas en el muestreo estratificado.

V MAS ( x ) * V MEP ( x ) * V MEMV ( x )


El muestreo estratificado con afijacin de mnima varianza es ms preciso que el muestreo estratificado con afijacin proporcional y que el aleatorio simple, siendo adems el estratificado con afijacin proporcional ms preciso que el aleatorio simple.

S 2 1< f L 1< f W h S h2 + = (1 < f ) n n h =1 1 42 4 3 1n 4 42 44 3 V MAS ( x ) V MEP ( x ) V MEMV ( x ) + 1 n

W (X
h =1 h L h

<X

Wh Sh < S
h =1

1< f n

W (X
h =1

<X

El incremento de la eficiencia del muestreo estratificado con afijacin de mnima varianza respecto del muestreo aleatorio simple recoge un trmino debido a la variabilidad de las medias de los estratos y otro debido a la variabilidad de las desviaciones tpicas de los estratos. Se produce la igualdad de eficiencias cuando las cuasivarianzas y las medias de los estratos son constantes, y se produce la mxima diferencia de eficiencias cuanto ms distintas sean las cuasivarianzas y las medias de los estratos, es decir, cuanto mayor sea la heterogeneidad entre los estratos, tal y como es lgico en muestreo estratificado. Muestreo con reposicin Vamos a realizar ahora comparaciones de eficiencias a partir de la expresin de m2. Tenemos:

m 2 = Whm h2 + Wh (X h < X )
L L 2 h =1 h =1

2 1 L 1 L 2 Whm h + Wh (X h < X ) n n4 nh h =1 =1 { 1 24 3 1 4 4 4 2444 3 VMAS ( x ) *0 VMEP ( x )

m2

VMAS ( x )

? La igualdad se da si X h = X h =1,L, L

VMEP ( x )

Hemos visto que el muestreo estratificado con reposicin y afijacin proporcional es ms preciso que el muestreo aleatorio simple con reposicin, producindose la igualdad de precisiones cuando las medias de los estratos son todas iguales. Ahora vamos a comparar la afijacin proporcional y de mnima varianza con reposicin.

Muestreo estratificado sin y con reposicin


2 2 L 1 L 1 L 1 L 2 2 VMEP ( x ) < VMEMV ( x ) = Whm h < Whm h = Wh m h < Wh m h n h =1 n h =1 n h 1 = h =1 L L 1 2 = Wh (m h < m ) * 0 conm = Whm h VMEP ( x ) * VMEMV ( x ) ? n h =1 h =1 La igualdad se da si S h = S h =1,L, L

159

El muestreo estratificado con reposicin y afijacin de mnima varianza es ms preciso que el muestreo estratificado con reposicin y afijacin proporcional, producindose la igualdad de precisiones cuando las cuasidesviaciones tpicas de los estratos son todas iguales.

VMAS ( x ) * VMEP ( x ) * VMEMV ( x )


En general el muestreo estratificado con reposicin y afijacin de mnima varianza es ms preciso que el muestreo estratificado con reposicin y afijacin proporcional y que el aleatorio simple con reposicin, siendo adems el estratificado con reposicin y afijacin proporcional ms preciso que el aleatorio simple con reposicin.

m2
n { V MAS ( x )

1 L 1 L 2 2 m + Wh (X h < X ) = W h h n4 h =1 1 24 3 n h =1 VMEP ( x ) 1 L Wh m h < m n h =1

VMEMV ( x ) +

) +1 W (X n
2 L h =1 h

<X)

El incremento de la eficiencia del muestreo estratificado con reposicin y afijacin de mnima varianza respecto del muestreo aleatorio simple con reposicin recoge un trmino debido a la variabilidad de las medias de los estratos y otro debido a la variabilidad de las desviaciones tpicas de los estratos. Se produce la igualdad de eficiencias cuando las varianzas y las medias de los estratos son constantes, y se produce la mxima diferencia de eficiencias cuanto ms distintas sean las varianzas y las medias de los estratos, es decir, cuanto mayor sea la heterogeneidad entre los estratos, tal y como es lgico en muestreo estratificado.

POSTESTRATIFICACIN
Cuando se manejan determinadas variables de estratificacin puede ocurrir que no se conozca el estrato a que pertenece una unidad sino hasta despus de recoger los datos. Ejemplos tpicos son las caractersticas personales como la edad, el sexo, la estatura, etc., y el nivel de educacin. Los tamaos de los estratos Nh se pueden obtener de manera bastante exacta a partir de las estadsticas oficiales, pero las unidades se pueden clasificar en estratos solamente despus de conocer los datos de la muestra. Por lo tanto, puede suponerse que los Wh y los Nh son conocidos.

160 Muestreo estadstico. Conceptos y problemas resueltos

Este mtodo se utiliza cuando se desconocen a priori las unidades que pertenecen a cada estrato. Obtenida la muestra, las unidades se asignan al estrato correspondiente. Si los pesos de stos son conocidos, se puede utilizar el estimador insesgado.
x ' = Wh x h
h =1 L

cuya precisin es similar a la obtenida con la afijacin proporcional, siempre que todos los nh sean grandes; por ejemplo, superiores a 20 unidades. Si de los Wh se conocen slo las aproximaciones Wh, el estimador:
x ' ' = W 'h xh
h =1 L

ser sesgado y la cuanta del sesgo ser:


E [x ' '] < X = W ' h X h < Wh u X h = (W ' h Wh ) u X h
h =1 h =1 h =1 L L L

La acuracidad vendr dada por el error medio cuadrtico


S2 E.M .C.( x ' ' ] = W ' u h u (1 < f h ) + (W ' h <Wh )X h nh h =1
L 2 h 2

''= N' x . El estimador del total es: X h h


h =1

El mtodo de postestratificacin puede aplicarse tambin a una muestra ya estratificada por otro factor, por ejemplo, en cinco regiones geogrficas a condicin de que los Wh se conozcan separadamente en cada regin. Esta estratificacin doble se utiliza mucho en las cuentas nacionales de Estados Unidos. Los errores se calculan y estiman mediante:
N <n L N <n L 2 2 N S ' u ' + S ' h (1 < f ' h ) h h N 2 n h =1 N n 2 h =1 L L ' ' ) = N < n N ' uS ' 2 + N ( N < n) S ' 2 (1 < f ' ) V (X h h h h n2 n h =1 h =1 V (x' ' ) =
L L '2 + N < n S ( x ' ' ) = N < n N ' uS V ' 2h (1 < f ' h ) h h N 2 n h =1 N n 2 h =1 L L ' 2 + N ( N < n) S ' 2 (1 < f ' ) (X ' ' ) = N < n N ' uS V h h h h n2 n h =1 h =1

2 por Para totales y proporciones cambiamos S h

n' h ' ) y S ' 2 por P' h (1 < P h h n' h <1

N 'h P ' h (1 < P' h ) . El apstrofe indica siempre valor de postestratificacin. N ' h <1

Muestreo estratificado sin y con reposicin

161

PROBLEMAS RESUELTOS
4.1.
Una empresa publicitaria est interesada en medir la influencia de la publicidad televisiva en un municipio y decide realizar una encuesta por muestreo para estimar el nmero promedio de horas por semana que se ve la televisin en los hogares del municipio. ste comprende dos pueblos A y B y un rea rural, y se sabe que existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el rea rural. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar 30 hogares (20 del pueblo A, 8 del pueblo B y 12 del rea rural) midiendo en cada uno el tiempo que se ve la televisin en horas por semana. Se obtienen los datos siguientes: Puebla A (estrato I) 35 28 26 41 43 29 32 37 36 25 29 31 39 38 40 45 28 27 35 34 Pueblo B (estrato II) 27 4 49 10 15 41 25 30 rea rural (estrato III) 8 15 21 7 14 30 20 11 12 32 34 24 Estimar el tiempo promedio que se ve la televisin, en horas por semana, en cada uno de los estratos y en todo el municipio fijando lmites para el error de estimacin a travs de intervalos de confianza al 95%. Comenzamos introduciendo los datos como tres columnas, una por cada estrato, en una hoja de clculo de Excel. A continuacin, para calcular los estadsticos necesarios en cada estrato, en el men Herramientas de Excel elegimos Anlisis de datos, seleccionamos Estadstica descriptiva y rellenamos la pantalla de entrada como se indica en la Figura 13-1. Al pulsar Aceptar se obtienen los estadsticos muestrales por estrato de la Figura 13-2. Se observa que el tiempo promedio que se ve la televisin en el pueblo A es 33,9 horas por semana, en el pueblo es 20,33 y en la zona rural es 19. Las cuasivarianzas muestrales son 33,3578, 285 y 87,63 horas por semana, respectivamente, en cada estrato, y al dividirlas por el tamao muestral seleccionado en cada estrato obtenemos los errores de los estimadores en cada estrato suponiendo muestreo con reposicin (33,35/20 = 1,667, 285/8 = 35,62 y 87,63/12 = 7,3). Como los coeficientes de asimetra y curtosis en cada estrato estn en el intervalo [<2,2], puede suponerse normalidad, con lo que los lmites para el error de estimacin en cada estrato (suponiendo muestreo con reposicin) sern los radios de los intervalos de confianza al 95%, es decir, 2,7829, 12,97 y 5,94, respectivamente. Si el muestreo es sin reposicin, las varianzas en cada estrato hay que multiplicarlas por (1< nh/Nh) h = 1, 2, 3.

Figura 13-1

162 Muestreo estadstico. Conceptos y problemas resueltos

Figura 13-2 Para hallar la estimacin del tiempo promedio que se ve la televisin en todo el municipio en horas por semana y su error para muestreo sin reposicin, se tendrn en cuenta las siguientes expresiones:
L Nh 1 =x = X st st N nh h =1 { Wh

X hi = Wh xh
i =1 h =1

nh

L 2 ( X ) = W 2 u (1 < f ) u S h V st h h nh h =1

La Figura 13-3 presenta las frmulas para el clculo del estimador de la media estratificada para todo el municipio, su error de muestreo y el radio del intervalo de confianza al 95%. La Figura 13-4 presenta los resultados.

Figura 13-3

Figura 13-4 La estimacin del tiempo promedio que se ve la televisin en todo el municipio en horas por semana en muestreo con reposicin es la misma que sin reposicin y su error de muestreo se calcula mediante la siguiente expresin:
L 2 ( X ) = W 2 u S h V st h nh h =1

La Figura 13-5 presenta las frmulas y la Figura 13-6 presenta los resultados.

Muestreo estratificado sin y con reposicin

163

Figura 13-5

Figura 13-6

4.2.

Consideramos los salarios anuales (variable X) en miles de euros de 500 trabajadores de una empresa se obtiene la siguiente distribucin de frecuencias:
Xi 2 3 5 10 20 50 100 200 ni 100 80 200 30 30 30 20 10

Se estratifica la poblacin en grupos homogneos de ganancias salariales utilizando como variable de estratificacin el propio salario anual mediante el criterio dado por 2 ) X < 10, 10 ) X < 100, 100 ) X ) 200. Realizar las afijaciones de mnima varianza sin y con reposicin de una muestra de tamao 100 cuando se estima el salario anual medio. Analizar las precisiones y justificar los resultados. Comenzamos realizando los clculos por estratos necesarios para la resolucin del problema. Tenemos:
Estratos
? I

Sh 1,32

S h2 1,75

mh
1,32

m h2
1,74

Nh 380 90 30

II III

17,1 292,13 16,99 288,88 47,95 2298,85 47,14 2222,22

Afijacin de mnima varianza sin reposicin


N 1 S1 15 n1 = 100 u + + N S N S N S 1 1 2 2 3 3 Nh Sh N2S2 44 n 2 = 100 u nh = n u L N 1 S1 + N 2 S 2 + N 3 S 3 N S h h h =1 N3 S3 41 n 3 = 100 u N 1 S1 + N 2 S 2 + N 3 S 3

Se observa que el nmero de unidades a seleccionar para la muestra en el tercer estrato es superior al nmero de unidades de dicho estrato.

164 Muestreo estadstico. Conceptos y problemas resueltos

Ante esta circunstancia seleccionamos para la muestra las 30 unidades del tercer estrato; es decir, todas las unidades del tercer estrato van a ser autorrepresentadas. Pero ahora las 70 unidades restantes de la muestra han de repartirse mediante afijacin de mnima varianza entre los dos primeros estratos. Tendremos:
N 1 S1 n1 = 70 u N S + N S 17 N S 1 1 2 2 nh = n u L h h N S 2 2 n = 70 u Nh Sh 53 2 h =1 + N S N2S2 1 1

Por tanto, la nueva afijacin es n1 = 17, n2 = 53 y n3 = 30. Para hallar la varianza del estimador de la media para esta afijacin sin reposicin hemos de tener en cuenta que los estratos con sus unidades autorrepresentadas no intervienen en el clculo de las varianzas. Como el tercer estrato no interviene en el valor de la varianza, calculamos N 380 N 90 W '1 = 1 = = 0,8085 y W '2 = 2 = = 0,1915 . La varianza ser:
N' 470 N' 470
2 2 = 1 W' S < 1 V W ' h S h2 = 0,184064 . X h h n' h =1 N ' h =1 2

Afijacin de mnima varianza con reposicin Realizaremos la afijacin de mnima varianza con reposicin como sigue:
N 1m 1 15 n1 = 100 u N 1m 1 + N 2m 2 + N 3m 3 N m N 2m 2 44 n h = n u L h h n 2 = 100 u N 1m 1 + N 2m 2 + N 3m 3 N hm h h =1 N 3m 3 41 n 3 = 100 u N 1m 1 + N 2m 2 + N 3m 3

Se observa que la afijacin coincide exactamente con la obtenida para muestreo sin reposicin. Ahora el nmero de unidades a seleccionar para la muestra en el tercer estrato vuelve a ser superior al nmero de unidades de dicho estrato, pero como el muestreo es con reposicin, es posible seguir haciendo extracciones porque las unidades se reponen a la poblacin cuando se extrae y nunca se acabarn. El valor de la varianza mnima ser ahora:
3 = 1 W m = 1 ( 380 u 1,32 + 90 u 16,99 + 30 47,14) 2 = 0,47469344 V X h h n h =1 500 500 100 500 2

No obstante, si se exige que las unidades seleccionadas sean distintas, seleccionamos para la muestra las 30 unidades del tercer estrato; es decir, todas las unidades del tercer estrato van a ser autorrepresentadas. Pero ahora las 70 unidades restantes de la muestra han de repartirse mediante afijacin de mnima varianza con reposicin entre los dos primeros estratos. Tendremos:

Muestreo estratificado sin y con reposicin

165

N 1m 1 n1 = 70 u N m + N m 17 N m 1 1 2 2 nh = n u L h h N 2m 2 n = 70 u N hm h 53 2 h =1 N 1m 1 + N 2 m 2

Por tanto, la nueva afijacin es n1 = 17, n2 = 53 y n3=30. Para hallar la varianza del estimador de la media para esta afijacin con reposicin hemos de tener en cuenta que los estratos con sus unidades autorrepresentadas no intervienen en el clculo de las varianzas. Como el tercer estrato no interviene en el valor de la varianza calculamos W '1 = N 1 = 380 = 0,8085
N' 470

N 90 W '2 = 2 = = 0,1915 . N ' 470

La varianza ser:
2

2 = 1 W ' m = 1 (0,8085 u 1,32 + 0,1915 u 16,99) 2 = 0,266705. V X h h n' h =1 70

Las afijaciones coinciden para muestreo con y sin reposicin, pero el muestreo sin reposicin resulta ms preciso, ya que tiene menor varianza (tanto si se exigen unidades distintas, como en caso contrario). Se observa que, aunque haya estratos con todas sus unidades autorrepresentadas, el muestreo sin reposicin sigue siendo ms preciso que el muestreo con reposicin.

4.3.

Las mil unidades de una poblacin se clasifican en tres estratos para los que se conocen los datos de la tabla adjunta:
Estratos
? I

mi
4

Wi 0,6

II III

12 0,3 80 0,1

Se pide: 1) Determinar el tamao de muestra que con afijacin proporcional proporciona una varianza del estimador de la media igual a 5, considerando muestreo con y sin reposicin. Realizar las respectivas afijaciones proporcionales. Qu resultados se obtendran con afijacin de mnima varianza? Realizar las respectivas afijaciones de mnima varianza. Comentar todos los resultados y compararlos. 2) Determinar el tamao de muestra para afijacin ptima con costes C1=1000, C2=1200 y C3=2000, considerando el muestreo con y sin reposicin. Realizar las respectivas afijaciones ptimas. Comprobar que los resultados coinciden para costes unitarios con los de afijacin de mnima varianza. Como es habitual en los problemas de muestreo estratificado, comenzamos recopilando los datos necesarios para el problema.

166 Muestreo estadstico. Conceptos y problemas resueltos

W1=0,6=N1/NN1=600 W2=0,3=N2/NN2=300 W3=0,1=N3/NN3=100 Tenemos entonces:


Estratos
? I

m12=16=(N1-1)S12/N1S12=6,02S1=4,003 m22=144=(N2-1)S22/N2S22=144,5S2=12,02 m32=6400=(N3-1)S32/N3S32=6464,6S3=80,4

Sh 4,003 12,02 80,4

S h2 6,02 144,5

mh
4 12

m h2
16 144

Nh

Wh

II III

600 0,6 300 0,3 0,1

6464,6 80

6400 100

Afijacin proporcional sin reposicin


Wh S h2 L 1 1 2 h =1 e2 = V 122 X = < Wh S h n = 1 L n N 2 h =1 e + Wh S h2 N h =1
L

Una vez hallado el tamao de muestra, realizamos la afijacin como sigue:


n1 = kN 1 = 0,122 u 600 73 n 122 n h = kN h con k = = = 0,122 n 2 = kN 2 = 0,122 u 300 37 N 1000 n = kN = 0,122 u100 12 3 3 Afijacin proporcional con reposicin
L = 1 W m2 n= e =V X n h =1 h h 2

W m
h =1 h

2 h

e2

139

Se observa que el tamao muestral necesario para cometer el mismo error que sin reposicin es ahora superior. Ello es debido a que el muestreo con reposicin es menos preciso que el muestreo sin reposicin. Una vez hallado el tamao de muestra realizamos la afijacin proporcional como sigue:
n1 = kN 1 = 0,139 u 600 83 n 139 nh = kN h con k = = = 0,139 n 2 = kN 2 = 0,139 u 300 42 N 1000 n = kN = 0,139 u100 14 3 3

Afijacin de mnima varianza sin reposicin


L Wh S h 2 L L 1 1 h =1 = W S < e2 = V Wh S h2 n = = 35 X h h L 1 n N 2 2 h =1 h =1 e + Wh S h N h =1
2

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza como sigue:

Muestreo estratificado sin y con reposicin

167

N 1 S1 6 n1 = 35 u N 1 S1 + N 2 S 2 + N 3 S 3 N S N2S2 9 n h = n u L h h n 2 = 35 u N 1 S1 + N 2 S 2 + N 3 S 3 Nh Sh h =1 N3S3 20 n 3 = 35 u N 1 S1 + N 2 S 2 + N 3 S 3

Afijacin de mnima varianza con reposicin


L Whm h 2 L 1 = W m n = h =1 e2 = V 40 X h h 2 n e h =1
2

Se observa que el tamao muestral necesario para cometer el mismo error que sin reposicin es ahora superior. Una vez hallado el tamao de muestra realizamos la afijacin de mnima varianza como sigue:
N 1m 1 7 n1 = 35 u N 1m 1 + N 2 m 2 + N 3m 3 N m N 2m 2 10 n h = n u L h h n 2 = 35 u N 1m 1 + N 2m 2 + N 3m 3 N hm h h =1 N 3m 3 23 n 3 = 35 u N 1m 1 + N 2m 2 + N 3m 3

Afijacin ptima sin reposicin

1 L V (xst ) = e 2 = Wh Sh n h=1

L 1 L 2 n = ch Wh Sh ch < Wh Sh N h=1 h=1

L Wh Sh h=1

L ch Wh Sh ch h=1 35 L 1 2 2 e + Wh Sh N h=1

Una vez hallado el tamao de muestra, realizamos la afijacin ptima como sigue:
N 1 S 1 / C1 n1 = 35 u 7 N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3 N h S h / Ch N2S2 nh = n u L n 2 = 35 u 10 N 1 S 1 / C1 + N 2 S 2 / C 2 + N 3 S 3 / C 3 N S C / h h h h =1 N3S3 n 3 = 35 u 18 N S C N S C N S C / / / + + 1 1 1 2 2 2 3 3 3

168 Muestreo estadstico. Conceptos y problemas resueltos

Afijacin ptima con reposicin


V ( x st ) = e 2 = 1 L Wh m h n h =1 L c h Wh m h c h n = h =1 L Wh m h h =1 L c h Wh m h c h h =1 = 40 2 e

Se observa que el tamao muestral necesario para cometer el mismo error que sin reposicin es ahora superior. Una vez hallado el tamao de muestra realizamos la afijacin ptima como sigue: N 1m 1 / C1 n1 = 40 u 8 N 1m 1 / C1 + N 2m 2 / C 2 + N 3m 3 / C 3 N hm h / C h N 2m 2 nh = n u L n 2 = 40 u 12 N C N C N C m m m + + / / / 1 1 1 2 2 2 3 3 3 N hm h / C h h =1 N 3m 3 n 3 = 40 u 20 / / / + + N m C N m C N m C 1 1 1 2 2 2 3 3 3 Si utilizamos costes unitarios los clculos son exactamente los mismos que para la afijacin de mnima varianza, luego los resultados tambin lo son. Se observa que tanto en muestreo con reposicin como sin reposicin la afijacin que menos tamao muestral necesita para cometer un determinado error de muestreo es la afijacin de mnima varianza, y en este caso tambin la ptima.

4.4.

Una empresa de publicidad quiere estimar la proporcin de hogares en un municipio donde se ve cierto programa televisivo. El municipio tiene en total 310 hogares y es dividido en tres estratos. Se selecciona una muestra estratificada de n = 40 hogares con afijacin proporcional. Estimar la proporcin de hogares en el municipio donde se ve el programa televisivo estimando los errores absoluto y relativo cometidos. Datos:
Estratos 1 2 3 Tamaos muestrales n 1 = 20 n2 = 8 n 3 = 12 N de hogares donde se ve el pro gra ma 16 2 6 P h 0,80 0,25 0,50

Como la seleccin de la muestra se realiza con afijacin proporcional, se tiene:


n1 20 N 1 = k = 0,129 155 n n 40 8 nh = kN h con k = = = 0,129 N 2 = 2 = 62 k N 310 0,129 n3 12 = 93 N1 = k 0,129

Ya podemos estimar la proporcin de hogares en el municipio donde se ve el programa televisivo de la siguiente forma:

Muestreo estratificado sin y con reposicin


3 3 = W P = Nh P = 155 0,80 + 62 0,25 + 93 0,50 = 0,60 (60%) P st h h h 310 310 310 h =1 h =1 N

169

Resulta que en el 60% de los hogares del municipio se ve el programa televisivo. Para calcular el error absoluto de esta estimacin hallamos la estimacin de la varianza del estimador de la proporcin. Se tiene:
2 2 3 3 (P ) = Nh V (P ) = N h (1 < n h ) Ph (1 < Ph ) = 0,0045 V st h 2 2 Nh nh < 1 h =1 N h =1 N

(P ) V 0,0045 st v( P )= El error relativo sera C u100 = u100 = 11,18% . st 0,60 P st

4.5.

Una empresa publicitaria est interesada en determinar lo que debe enfatizar la publicidad televisiva en un determinado municipio, y decide realizar una encuesta por muestreo para estimar el nmero promedio de horas por semana que se ve la televisin en los hogares del municipio. ste comprende dos pueblos, pueblo A y pueblo B, y un rea rural. El pueblo A circunda una fbrica, y la mayora de los hogares son de trabajadores fabriles con nios en edad escolar. El pueblo B es un suburbio exclusivo de una ciudad vecina y consta de habitantes ms viejos con pocos nios en casa. Existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el rea rural. Se pide: 1. Analizar los mritos de usar muestreo aleatorio estratificado en esa situacin. 2. Supngase que se lleva a cabo la encuesta planificada. La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar n = 40 hogares, y decide seleccionar muestras aleatorias de tamao n1 = 20 del pueblo A, n2 = 8 del pueblo B, y n3 = 12 del rea rural. Se seleccionan las muestras irrestrictas aleatorias y se realizan las entrevistas. Los resultados, con mediciones del tiempo que se ve la televisin en horas por semana, son los siguientes:
Estrato 1(pueblo A) Estrato 2 (pueblo B) Estrato 3 (pueblo C) 35 43 36 39 28 27 15 4 41 49 8 14 12 15 30 28 25 32 29 10 21 25 30 20 38 27 34 7 26 32 11 24 29 40 35 41 37 31 45

Estimar el tiempo promedio que se ve televisin, en horas por semana, para (a) todos los hogares del municipio y (b) todos los hogares en el pueblo B. En ambos casos fijar un lmite para el error de estimacin. 3. Estimar el nmero total de horas por semana que las familias del municipio dedican a ver la televisin fijando un lmite para el error de estimacin. Comenzamos recopilando la informacin necesaria para el problema en la tabla siguiente:
Estratos nh S h2 Sh xh Nh

? 1 2 3

20 35,358 5,946 33,9 155 8 232,411 15,245 25,125 62 12 87,636 9,361 19 93

170 Muestreo estadstico. Conceptos y problemas resueltos

En cuanto al primer apartado, podemos decir que la poblacin de hogares se ubica en tres grupos naturales, dos pueblos y un rea rural, de acuerdo con su localizacin geogrfica. Por lo tanto, la poblacin dividida en tres estratos es bastante natural, lo que lleva a que los elementos de cada estrato deben de presentar tendencias similares de comportamiento entre ellos mismos (homogeneidad dentro). Se espera relativamente poca variabilidad en el nmero de horas que se ve la televisin en los hogares de cada grupo, lo que hace aplicable el muestro estratificado. Por otro lado, los estratos son adecuados por conveniencia administrativa para seleccionar las muestras y para ejecutar el trabajo de campo. Adems, la empresa publicitaria puede obtener estimaciones por separado del nmero promedio de horas que se ve la televisin en cada estrato. Para estimar el promedio de horas por semana que se ve la televisin en todo el municipio, utilizamos el estimador de la media estratificada:
x st = Wh x h =
h =1 3

155 62 93 33,9 + 25,125 + 19 = 27,7 310 310 310

El error de esta estimacin ser:


2 2 2 2 L 155 20 35,3 62 8 232,4 93 12 87,6 (x ) = W 2 (1< f ) S h = V 1 + 1 < + = 1,97 < 1< st h h nh 310 155 20 310 62 8 h=1 310 93 12

Un intervalo de confianza al 95% (h_ 2) ser el siguiente:


( x ) = 27,72 1,97 =27,72,8 xst h_ V st

Por lo tanto, estimamos que el nmero promedio de horas que se ve la televisin en los hogares del municipio es de 27,7 horas, con un error de muestreo de 1,97 = 1,4 horas y un lmite para el error de estimacin de 2,8 horas. Las ocho observaciones del estrato relativo al pueblo B forman una muestra aleatoria simple para la que podemos aplicar las frmulas del muestreo irrestricto aleatorio. Tenemos:
x2 =25,125

2 8 232,4 (x ) = (1< f ) S2 = V = 25,5 1< 2 2 n2 62 8


(x ) = 25,12510,1 x 2 h_ V 2

Por lo tanto, estimamos que el nmero promedio de horas que se ve la televisin en el pueblo B es de 25,5 horas, con un error de muestreo de 25,5 = 5,05 horas y un lmite para el error de estimacin de 10,1 horas. El lmite del error de estimacin es ms grande en este caso porque la variabilidad del estrato es grande y su tamao es pequeo. Se observa que la estimacin en todo el municipio es buena, pero en el estrato 2 es peor.

Muestreo estratificado sin y con reposicin

171

El nmero total de horas estimado que las familias del municipio dedican a ver la televisin ser:
= Nx = 300(27,7) = 8587 horas X st st

El error de esta estimacin ser:


= N 2V (x ) = 300 2 (1,97 ) = 189278 ,56 V X st st

( )

Un intervalo de confianza al 95% (h_ 2) ser el siguiente:


X h_ V X = 85872 189278,56 =8587870 st st

( )

Por lo tanto, estimamos que el nmero total de horas que se ve la televisin en los hogares del municipio es de 8587 horas, con un error de muestreo de 189278,56 = 435 horas y un lmite para el error de estimacin de 870 horas. Cuando se estiman totales es conveniente relativizar los errores, para que sean ms comprensibles. En nuestro caso, el error relativo ser:
v X = V X st 100 = 189278,56 100 = 5% C st 8587 X st

( )

( )

Se trata de un error muy aceptable.

4.6.

La empresa publicitaria del ejercicio anterior comprob que cuesta ms obtener una observacin del rea rural que una del pueblo A o del B. El incremento es debido a los costos de traslado de un hogar rural a otro. El costo por observacin en cada pueblo se ha estimado en 9 euros (esto es, c1 = c2 = 9), y los costos por observacin en el rea rural se han estimado en 16 euros (esto es, c3 = 16). Las desviaciones estndar por estrato (aproximadas por las varianzas muestrales de una encuesta previa) son m 1 5 5 , m 2 5 15 y m 3 5 10 . Halle el tamao de muestra total n y los tamaos de muestra para los estratos n1, n2 y n3, que permiten a la empresa estimar, al mnimo costo, el tiempo promedio que se ve televisin, con un lmite para el error de estimacin igual a 2 horas. Supongamos que la firma publicitaria decide utilizar entrevistas por telfono en lugar de entrevistas personales, porque todos los hogares en el municipio tienen telfono y este mtodo reduce los costos. El costo de obtener una observacin es entonces el mismo en los tres estratos y la empresa desea estimar en este caso la media poblacional con un lmite para el error de estimacin igual a 2 horas. Encuentre el tamao aproximado de la muestra n y los tamaos de muestra para los estratos n1, n2 y n3. Supongamos ahora que la empresa publicitaria considera que las varianzas aproximadas que se usaron en los ejemplos previos son errneas y que las varianzas de los estratos son iguales. El valor comn de i fue aproximado por 10 en un estudio preliminar. Se van a efectuar entrevistas por telfono, por lo que los costos sern iguales en todos los estratos. La empresa desea estimar el nmero promedio de horas por semana que se ve la televisin en los hogares del municipio, con un lmite para el error de estimacin igual a 2 horas. Determine el tamao de muestra y los tamaos de estratos necesarios para lograr esta exactitud.

172 Muestreo estadstico. Conceptos y problemas resueltos

En primer lugar observamos que, como el lmite del error de estimacin es 2, tenemos:
(x ) = 2 V (x ) = 1 2 V st st

Como estamos en afijacin ptima sin reposicin, el tamao de muestra necesario para cometer un error de muestreo unitario para estimar la media vendr dado por:

1 L V (xst ) = Wh S h n h=1

L 1 L ch Wh S h ch < Wh S h2 h=1 N h=1

L Wh S h h =1 n=

L ch Wh S h ch h=1 L 1 V (x st ) + Wh S h2 N h=1

Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos (los Wh son los del problema anterior):

n=

L Whm h h =1

L c h Whm h c h h =1 = 57,42 5 58 1 L 2 V (x st ) + Whm h N h =1

Ahora realizamos la afijacin ptima como sigue:


N 1m 1 / C1 18 n1 = 58 u N 1m 1 / C1 + N 2m 2 / C 2 + N 3m 3 / C 3 N hm h / C h N 2m 2 n 2 = 58 u 23 nh = n u L N 1m 1 / C1 + N 2m 2 / C 2 + N 3m 3 / C 3 / N m C h h h h =1 N 3m 3 n3 = 58 u 17 N 1m 1 / C1 + N 2m 2 / C 2 + N 3m 3 / C 3

En caso de utilizar entrevista telefnica, los costes unitarios por estrato son iguales, con lo que la afijacin ptima coincide con la afijacin de mnima varianza. En este caso, el tamao de muestra para cometer un error de muestreo unitario ser:
L Wh S h 2 L L 1 1 h =1 e 2 = V (x st ) = Wh S h < Wh S h2 n = L 1 n h =1 N h =1 V (x st ) + Wh S h2 N h =1
2

Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos (los Wh son los del problema anterior):

Muestreo estratificado sin y con reposicin


2

173

L Whm h h =1 = 56,34 5 57 n= L 1 V (x st ) + Whm h2 N h =1

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza como sigue: N 1m 1 17 n1 = 57 u N 1m 1 + N 2m 2 + N 3m 3 N m N 2m 2 n h = n u L h h n 2 = 57 u 20 N 1m 1 + N 2m 2 + N 3m 3 N hm h h =1 N 3 S3 20 n3 = 57 u N 1m 1 + N 2m 2 + N 3m 3 Aunque el tamao de muestra sigue siendo muy parecido al del apartado anterior, la afijacin cambia, tomndose ms observaciones del rea rural ya que ahora no tienen un coste ms alto. Si, adems de utilizar costes unitarios, suponemos que la variabilidad en los estratos es unitaria, podemos aproximar la afijacin ptima y la de mnima varianza por la proporcional, ya que en este caso coinciden las tres. Entonces, el tamao de muestra para cometer un error de muestreo unitario ser:

1 1 e 2 = V (x st ) = < Wh S h2 n = n N h =1 V (x
L

W S
h =1 h st

2 h 2 h

)+

1 N

W S
h =1 h

Aproximando las cuasivarianzas por las desviaciones estndar por estrato, que son todas iguales a 10 en este caso, tenemos (los Wh son los del problema anterior):

n=

W m
h =1 h

2 h

V (x st ) +

1 N

Whm h2
h =1

= 75,6 5 76

Una vez hallado el tamao de muestra, realizamos la afijacin proporcional como sigue:
n1 = kN 1 = 0,245 u 155 38 n 76 nh = kN h con k = = = 0,245 n 2 = kN 2 = 0,245 u 62 15 N 310 n = kN = 0,245 u 93 23 3 3

174 Muestreo estadstico. Conceptos y problemas resueltos

4.7.

Una empresa de publicidad quiere estimar la proporcin de hogares en un municipio donde se ve cierto programa televisivo. El municipio tiene en total N = 310 hogares y es dividido en tres estratos (pueblo A, pueblo B y un rea rural) de tamaos 155, 62 y 93 hogares, respectivamente. Datos de un estudio anterior indican que las proporciones de hogares donde se ve el programa pueden estimarse por 0,80, 0,25 y 0,30, respectivamente, en cada estrato. Adems, el coste para obtener una observacin es de 9 unidades monetarias para cualquiera de los pueblos y de 16 para el rea rural. Hallar el tamao de muestra n y su reparto entre los estratos para estimar la proporcin poblacional de hogares donde se ve la televisin con un lmite para el error de estimacin igual a 0,1 y con un coste mnimo. Resolver el problema suponiendo que las entrevistas se realizan por telfono. Resolver el problema suponiendo que las entrevistas se realizan por telfono y la proporcin de hogares donde se ve el programa televisivo es similar en cada uno de los tres estratos. Observamos que, como el lmite del error de estimacin es 0,1, tenemos:
= 0,1 P = 0,0025 2 P st st

En la primera parte del problema se trata de buscar el tamao de muestra necesario para estimar la proporcin de hogares donde se ve el programa televisivo con un error de 0,1 y afijacin ptima. Disponemos de los siguientes datos:
Estratos 1 2 3 Tamaos N 1 = 155 N 2 = 62 N 3 = 93 ci 9 9 16 P h 0.80 0.25 0,50

Como estamos en afijacin ptima sin reposicin, el tamao de muestra necesario para cometer un error de muestreo unitario para estimar la proporcin vendr dado por:

1 L V (xst ) = Wh S h n h=1

L 1 L ch Wh S h ch < Wh S h2 h=1 N h=1

L Wh S h h =1 n=

L ch Wh S h ch h=1 1 L V (x st ) + Wh S h2 N h=1

=P Q (1 < P ) por estrato tenemos: Aproximando las cuasivarianzas por P h h h h

n=

L Nh N h =1

L N h ch N Ph Qh c h h =1 = 62,3 5 64 1 L Nh V (x st ) + Ph Qh N h =1 N Q P h h

Ahora realizamos la afijacin ptima como sigue:

Muestreo estratificado sin y con reposicin

175

N1 n1 = 63 u N1 P1Q1 / C1 + N 2 N h Ph Qh / Ch n2 = 63 u nh = n u L N1 P1Q1 / C1 + N 2 N h Ph Qh / Ch h =1 n3 = 63 u N1 P1Q1 / C1 + N 2

P1Q1 / C1 P2 Q2 / C2 + N 3 P3Q3 / C3 N 2m 2 P2 Q2 / C2 + N 3 P3Q3 / C3 N 3m 3 P2 Q2 / C2 + N 3 P3 Q3 / C3

31 14 18

En caso de utilizar entrevista telefnica, los costes unitarios por estrato son iguales, con lo que la afijacin ptima coincide con la afijacin de mnima varianza. En este caso, el tamao de muestra para cometer un error de muestreo unitario ser:
L Wh S h 2 L L 1 1 h =1 e 2 = V ( x st ) = Wh S h < Wh S h2 n = L 1 n h =1 N h =1 V (x st ) + Wh S h2 N h =1
2

=P Q (1 < P ) por estrato tenemos: Aproximando las cuasivarianzas por P h h h h


L Nh Ph Qh h =1 N = 61,08 5 62 n= L N 1 V (x st ) + h P Q h h N h =1 N
2

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza como sigue:
N1 P1Q1 n1 = 62u 29 N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3 N h Ph Qh N 2m 2 nh = n u L n2 = 62u 12 N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3 N P Q h h h h =1 N 3m 3 n3 = 62u 21 N1 P1Q1 + N 2 P2 Q2 + N 3 P3 Q3

Aunque el tamao de muestra sigue siendo muy parecido al del apartado anterior, la afijacin cambia, tomndose ms observaciones del rea rural ya que ahora no tienen un coste ms alto. Si, adems de utilizar costes unitarios, suponemos que la variabilidad en los estratos es constante (Ph 5 0,4 mh2 = PhQh = Ph(1<Ph) = 0,24), podemos aproximar la afijacin ptima y la de mnima varianza por la proporcional, ya que en este caso coinciden las tres. Entonces, el tamao de muestra para cometer un error de muestreo unitario ser:

176 Muestreo estadstico. Conceptos y problemas resueltos


L

1 1 L e = V (x st ) = < Wh S h2 n = n N h =1 V (x
2

W S
h =1 h st

2 h 2 h

)+

1 N

W S
h =1 h

=P Q (1 < P ) por estrato tenemos: Aproximando las cuasivarianzas por P h h h h Nh Ph Qh h =1 N = 73,3 5 74 n= 1 L Nh V (x st ) + Ph Qh N h =1 N

Una vez hallado el tamao de muestra, realizamos la afijacin proporcional como sigue:
n1 = kN 1 = 0,238 u 155 37 n 74 nh = kN h con k = = = 0,238 n 2 = kN 2 = 0,238 u 62 15 N 310 n = kN = 0,238 u 93 22 3 3

4.8.

Se trata de estimar el peso promedio de N = 90 conejos (N1 = 50 machos y N2 = 40 hembras) que han sido alimentados en cierta dieta. Los conejos se separan por sexo, por lo que el uso de muestreo aleatorio estratificado con dos estratos pareci apropiado. Para aproximar la variabilidad dentro de cada estrato, se pes el conejo ms pequeo y el ms grande en cada estrato, y se hall que la amplitud de variacin fue de 10 gramos para los machos y de 8 para las hembras. Cul es el tamao de muestra necesario para estimar el peso promedio poblacional con un lmite de 1 gramo para el error de estimacin suponiendo que el costo de muestreo fue el mismo para ambos estratos? Si suponemos los pesos con una distribucin normal, la desviacin estndar en cada estrato puede aproximarse por un cuarto de la amplitud de variacin, es decir, m1 = 10/4 = 2,5 y m2 = 8/4 = 2. Como los costes de muestreo son similares en los estratos, es lgico utilizar afijacin de mnima varianza (que coincide con la ptima en este caso) y que siempre es ms eficiente que la afijacin proporcional. En este caso, el tamao de muestra para cometer un error de muestreo unitario ser:
L Wh S h 2 L L 1 1 h =1 e 2 = V (x st ) = Wh S h < Wh S h2 n = L 1 n h =1 N h 1 = V (x st ) + Wh S h2 N h =1
2

Aproximando las cuasivarianzas por las desviaciones estndar por estrato tenemos:
L Nh mh N h =1 n= = 16,83 5 17 1 L Nh 2 V (x st ) + mh N h =1 N
2

Muestreo estratificado sin y con reposicin

177

Una vez hallado el tamao de muestra, realizamos la afijacin de mnima varianza como sigue: N 1m 1 n1 = 17 u N m + N m + N m 10 N m 1 1 2 2 3 3 nh = n u L h h N 2m 2 n = 17 u N hm h 7 2 h =1 N 1m 1 + N 2m 2 + N 3m 3

4.9.

Un mayorista del sector de la distribucin de comestibles en una gran ciudad desea saber si la demanda es lo suficientemente grande para justificar la inclusin de un nuevo producto en sus existencias. Para tomar la decisin, planifica aadir este producto a una muestra de los almacenes a los que abastece para estimar el promedio de las ventas mensuales (variable X). El distribuidor suministra nicamente a cuatro grandes cadenas en la ciudad y, por conveniencia administrativa, decide utilizar muestreo aleatorio estratificado tomando cada cadena como un estrato. Hay 24 almacenes en el estrato 1, 36 en el estrato 2, 30 en el estrato 3 y 30 en el estrato 4 (N1 = 24, N2 = 36, N3 = 30, N4 = 30 y N = 120). El distribuidor tiene suficiente tiempo y dinero para obtener datos sobre ventas mensuales en una muestra de tamao n = 20 almacenes. Dado que no tiene informacin previa respecto a las varianzas de los estratos y porque el coste del muestreo es el mismo en cada estrato, decide aplicar la afijacin proporcional, con lo que el nuevo producto es introducido en cuatro almacenes elegidos al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de las cadenas 3 y 4. Despus de un mes, las ventas X presentan los resultados indicados en la tabla siguiente: Estrato 1 94 90 102 110 Estrato 2 91 99 93 105 111 101 Estrato 3 108 96 100 93 93 Estrato 4 92 110 94 91 113

Estimar las ventas promedio para el mes y fijar un lmite para el error de estimacin. Realizar la misma estimacin y calcular el error suponiendo que se realiza muestreo aleatorio simple. Comentar los resultados. Evidentemente, la afijacin proporcional nos lleva a seleccionar cuatro almacenes elegidos al azar de la cadena 1, seis almacenes de la cadena 2, y 5 almacenes de cada una de las cadenas 3 y 4, ya que:
30 36 30 N 24 n1 = n 1 = 20 =5 = 6 , n3 = 20 = 5 , n 4 = 20 = 4 , n2 = 20 N 120 120 130 130

De la tabla de ventas se deducen los siguientes valores:

178 Muestreo estadstico. Conceptos y problemas resueltos

2 ) 78,67 55,6 39,5 112,5 Cuasivarianzas ( S h

Estratos A Medias ( x h )

I 99

II 100

III 98

IV 100

El estimador de la media ser:


x st = Wh x h =
h =1 h =1 L L

Nh 24 36 30 30 xh = 99 + 100 + 98 + 100 = 99,3 N 120 120 120 120

Como la afijacin es proporcional, tenemos:


L 1 (x ) = 1 V Wh S h < st n h =1 N 2

1 L N 1 Wh S = h S h < n h =1 N N h =1
L 2 h

h =1

Nh 2 S h = 2,93 N

Un intervalo de confianza al 95% para esta estimacin ser:


(x ) = 99,3 2 2,93 = 99,3 3,4 x st 2 V st

Si hubisemos considerado muestreo aleatorio simple, el estimador de la media sera:


x= 1 L 1 Xi = (94 + 90 + L + 91 + 113) = 99,3 n h =1 20

Su error de muestreo estimado ser:


2 ( x ) = (1 < f ) S = (1 < 20 ) 59,8 = 2,49 V n 120 20

Se observa que el error es menor en muestreo aleatorio simple con una ganancia en precisin dada por:
2,93 GP = 100 = 17,67% 2,49 < 1

La razn de que el muestreo estratificado proporcional haya sido peor que el aleatorio simple en un 17,67% radica en que las ventas varan fuertemente dentro de los almacenes de las distintas cadenas que conforman los estratos. Si observamos los valores de las cuasivarianzas en los distintos estratos vemos que varan mucho entre s. ste es un caso tpico de mala aplicacin de la afijacin proporcional. La posible solucin a este problema podra haber sido la estratificacin a partir de la cantidad de ventas, esto es, ubicando los almacenes con ventas mensuales bajas en un estrato, almacenes con ventas altas en otro, y as sucesivamente. De esta forma se conseguiran estratos muy homogneos dentro de s y heterogneos entre s, lo que disminuira el error de estimacin y aumentara la ganancia en precisin del muestreo estratificado respecto del aleatorio simple.

Muestreo estratificado sin y con reposicin

179

4.10.

La consejera de medio ambiente de una comunidad est realizando un estudio del nmero de personas X que utiliza las instalaciones de campings pblicos. La comunidad tiene dos reas para acampar, una localizada en las montaas y otra localizada a lo largo de la costa. La consejera desea estimar el nmero promedio de personas por camping y la proporcin de campings que albergan personas de fuera de la comunidad durante un particular fin de semana, cuando se espera que todos los sitios estn ocupados. El nmero promedio de personas se va a estimar con un lmite de 1 para el error de estimacin, y la proporcin de personas de fuera de la comunidad con un lmite de 0,1. Las dos reas para acampar forman convenientemente dos estratos, la localidad de la montaa como el estrato 1 y la localidad de la costa como el estrato 2. Se sabe que N1 = 120 campings para acampar y N2 = 80. Encuentre el tamao de muestra y la asignacin necesarios para lograr estos dos lmites. Se supone que la consejera de medio ambiente conoce por experiencia que la mayora de los campings contienen de 1 a 9 personas y que los costes de muestreo son los mismos en cada estrato. Como los costes de muestreo son constantes en los estratos, utlizaremos afijacin de mnima varianza (equivalente a la ptima en este caso). Adems, como la desviacin tpica es alrededor de 1/4 de la amplitud de variacin en una distribucin normal, podemos suponer que su valor para el nmero de personas que ocupan los campings es constante en todos los campings y con valor mi = (9 < 1)/4 = 2. En primer lugar observamos que, como el lmite del error de estimacin es 1 tenemos: (x ) = 1 V (x ) = 0,25 2 V st st En afijacin proporcional, el tamao de muestra necesario para cometer un error de muestreo de 0,25 al estimar la media (promedio de personas por camping) podra estimarse como sigue:
1 1 e 2 = V (x st ) = < Wh S h2 n = n N h =1 V (x
L

W S
h =1 h st ) +

2 h 2 h

1 N

W S
h =1 h

Aproximando las cuasivarianzas por las desviaciones estndar por estrato, que son todas iguales a 2 en este caso, tenemos:
Nh 2 mh h =1 N = 14,8 5 15 n= 1 L Nh 2 V (x st ) + mh N h =1 N

Una vez hallado el tamao de muestra (15 campings), realizamos la afijacin proporcional como sigue:
nh = kN h con k =

n = kN 1 = 0,075 u 120 = 9 n 15 = = 0,075 1 N 200 n 2 = kN 2 = 0,075 u 80 6

Se estudiarn entonces 9 campings localizados en las montaas y 6 en la costa.

180 Muestreo estadstico. Conceptos y problemas resueltos

En el caso de la estimacin de la proporcin de ocupantes de fuera de la comunidad, no disponemos de estimaciones previas de las proporciones por estrato, lo que nos llevar a =P = 0,5 para obtener el tamao de muestra mximo posible cuyo valor en considerar P 1 2 afijacin proporcional ser:
Nh Ph Qh h =1 N = 67 n= 1 L Nh V (x st ) + Ph Qh N h =1 N

Una vez hallado el tamao de muestra, realizamos la afijacin proporcional como sigue:
nh = kN h con k =

n = kN 1 = 0,335 u 120 40 n 67 = = 0,335 1 N 200 n 2 = kN 2 = 0,238 u 62 27

Se estudiarn entonces 40 campings localizados en las montaas y 27 en la costa. Lgicamente se obtienen tamaos de muestra muy altos ya que nos hemos situado en el caso ptimo de precisin mxima.

4.11.

Determinar el tamao n de la muestra estratificada que con afijacin de mnima varianza produzca la misma precisin que una muestra aleatoria simple (no estratificada) de tamao n, para estimar la proporcin P de una cierta clase en la poblacin. Suponer en ambos casos muestreo con reposicin y aplicar el resultado a los datos de la tabla con n=1000. Estratos Wh Ph I 0,2 0,5 II 0,3 0,6 III 0,5 0,4

Resolver el mismo problema para afijacin proporcional y comparar resultados realizando los comentarios pertinentes. Se trata de igualar la varianza del estimador de la proporcin en muestreo estratificado con afijacin de mnima varianza a la varianza del estimador de la proporcin en el muestreo aleatorio simple en ambos casos con reposicin. Se tiene:
3 Wh Ph (1 < Ph ) h =1 ) = P (1 < P) y V V AS ( P STMV ( P ) = n n'
2

Teniendo presente que P = WhPh, se tiene el siguiente cuadro de datos:

Muestreo estratificado sin y con reposicin

181

Estratos W h Ph 1 < Ph I 0,2 0,5 0,5 II III 0,3 0,6 0,5 0,4 0,4 0,6

W h Ph 0,10 0,18 0,20


h

Ph (1 < Ph ) 0,5 0,49 0,49

Wh Ph (1 < Ph ) 0,1 0,147 0,245


h

W
h =1

Ph = 48

W
h =1

Ph (1 < Ph ) = 0,492

Igualando las precisiones tenemos:


3 Wh Ph (1 < Ph ) P ( 1 < P ) h =1 ) = V V AS ( P = STMV ( P ) n n'
3 n' Wh Ph (1 < Ph ) 2 h =1 = 1000 (0,492 ) = 970 n= 0,48(1 < 0,48) P (1 < P )
2

Se obtiene un tamao de muestra n = 970 en el muestreo estratificado con afijacin de mnima varianza, que es ligeramente inferior al tamao necesario en muestreo aleatorio simple n = 1000. Existe entonces una ganancia en precisin por utilizar muestreo estratificado, pero es pequea. A continuacin se iguala la varianza del estimador de la proporcin en muestreo estratificado con afijacin proporcional a la varianza del estimador de la proporcin en el muestreo aleatorio simple, en ambos casos con reposicin. Se tiene:

) = V AS ( P

P (1 < P) ) = y VSTP ( P n'

W P (1 < P )
h =1 h h h

n
3

Igualando las precisiones tenemos:


) = V (P ) P(1 < P) = V AS ( P STP n'

W P (1 < P )
h =1 h h h

3 n' Wh Ph (1 < Ph ) h =1 = 1000 (0,242) = 970 n= 0,48(1 < 0,48) P (1 < P )

Se obtiene un tamao de muestra n = 970 en el muestreo estratificado con afijacin proporcional, que es ligeramente inferior al tamao necesario en muestreo aleatorio simple n=1000. Existe entonces una ganancia en precisin por utilizar muestreo estratificado, pero es pequea. Observamos que este tamao de muestra con afijacin proporcional coincide con el tamao de muestra para afijacin de mnima varianza, con lo que en este caso la precisin de ambos tipos de afijacin es similar. Esto es debido a que las variabilidades por estrato Ph (1 < Ph ) son casi iguales (0,5, 0,49 y 0,49).

182 Muestreo estadstico. Conceptos y problemas resueltos

4.12.

Se trata de estudiar el consumo anual de leche en una ciudad de 110000 habitantes. La poblacin se divide en tres estratos por edades y se toman muestras aleatorias simples en cada uno de ellos. Se tienen los siguientes datos para el consumo anual de leche en litros: Estratos Menores de 25 aos Entre 25 y 50 aos Ms de 50 aos Tamaos poblacionales 48000 38000 24000 Tamaos muestrales 1460 1160 1730 Media muestral del consumo 102,7 71,4 73,2 Varianza muestral 15876 48841 23409

Estimar la cantidad total de leche consumida al ao entre los menores de 25 aos, indicando el error de muestreo cometido, y calcular el tamao muestral necesario para estimar el consumo medio de leche al ao entre los mayores de 50 aos, con un error de muestreo de 5 litros al 95% de confianza. Realizar una estimacin por intervalos al 95% del consumo medio anual de leche por habitante. Supongamos ahora que se multiplica por tres el tamao de la muestra. Realizar la nueva afijacin por los diferentes mtodos para elegir el mejor. Si se quiere estimar la proporcin de personas entre 25 y 50 aos que estaran dispuestas a comprar un producto lcteo de reciente aparicin, cul sera el tamao muestral necesario para estimar la proporcin de personas entre 25 y 50 aos que estaran dispuestas a comprar un producto lcteo de reciente aparicin con un error de muestreo inferior al 5%? Comparar el resultado anterior con el obtenido cuando existe un estudio piloto que sugiere que dicha proporcin ser al menos del 60%. Consideramos como variable X la cantidad de leche consumida anualmente por una persona. La primera pregunta del problema pide estimar un total poblacional dentro del primer estrato; por tanto, su estimador es el correspondiente a un muestreo aleatorio simple:
= N x = 48000(102,7) = 4929600 litros X 1 1 1

El error de muestreo estimado ser:


2 S 1460 15876 )= V (X ) = 155857,578 litros (X ) V ( X 1 ) = (1 < f 1 ) 1 = (1 < m 1 1 48000 1460 n

Par calcular el tamao muestral necesario al estimar el consumo medio de leche en el tercer estrato con un error de muestreo fijado de 5 litros, ser necesario un tamao muestral igual a:
n3 =
2 N 3 S 32 h_ 1,96 2 (24000)(23409) = = 3128,25 5 3129 2 2 e_ N 3 + h_ S 32 5 2 (24000) + 1,96 2 (23409)

Para realizar la estimacin por intervalos al 95% del consumo medio anual de leche por habitante en la ciudad, utilizaremos el estimador de la media global en el muestreo estratificado y, por tanto, el intervalo de confianza ser:

Muestreo estratificado sin y con reposicin

183

( x st ) x st h_ m

x st = Wh x h =
h =1

1 N
L

N
h =1 2 h

xh =

1 (48000 102,7 + 38000 71,4 + 24000 73,2) = 85,451 110000


2

S 2 48000 1460 15876 ( x st ) = W (1 < f h ) h = m + 1 < n h 110000 48000 1460 h =1 1730 23409 1160 48841 24000 38000 + = 2,73 1 < 1 < 24000 1730 110000 38000 1160 110000
2 2

Entonces:
( x st ) = 85,451 1,96 * 2,73 = [80,101; 90,801] x st h_ m

Si triplicamos el tamao de la muestra, el nuevo valor ser 3(1460 + 1160 + 1730) = 13050 personas. A continuacin realizamos las distintas afijaciones entre los estratos de este nuevo tamao muestral. Afijacin uniforme Wh = 1/L = 1/3, h = 1, 2, 3 n1 = n2 = n3 = (1/L)n =13050/3 = 4350 Por tanto, de cada estrato se tomara un muestra aleatoria simple de 4350 personas. Afijacin proporcional
Wh = Nh , h = 1, 2, 3 N

n1 = n2 = n3 =

N1 48000 n= 13050 = 5694,5455 5 5695 N 110000 N2 38000 n= 13050 = 4508,1818 5 4508 N 110000 N3 24000 n= 13050 = 2847,2727 5 2847 N 110000

Afijacin de mnima varianza


nh = Nh Sh
L

N i Si
i =1

n , h = 1, 2, 3

184 Muestreo estadstico. Conceptos y problemas resueltos


L

N
h =1

S h = 48000 15876 + 38000 48841 + 24000 23409 = 18118000


48000 15876 13050 = 4356,2424 5 4356 18118000 38000 48841 13050 = 6048,8961 5 6049 18118000 24000 23409 13050 = 2644,8615 5 2645 18118000

n1 =

n2 =

n3 =

Como la afijacin de mnima varianza siempre supera a las dems, esta ltima es la afijacin ms eficiente entre los estratos. Para resolver el ltimo apartado utilizaremos muestreo aleatorio simple en el segundo estrato. El tamao muestral necesario para conseguir un error inferior a 0,05 al estimar la proporcin con un coeficiente de confianza del 95% ser una cantidad superior o igual a la siguiente:
n=
2 N 2 p2 q2 h_ 1,96 2 (38000)(0,5)(0,5) = = 380,3251 5 381 2 e2 0,05 2 (37999) + 1,96 2 (0,5)(0,5) p ( N 2 < 1) + h_ p 2 q 2
3

Hemos supuesto que si no se tiene informacin sobre p2 o q2 tomamos p2 = q2 = 0,5, que es la situacin de mxima variabilidad:
n= 1,96 2 (38000)(0,5)(0,5) = 380,3251 5 381 0,05 2 (37999) + 1,96 2 (0,5)(0,5)

Si de la encuesta piloto se conoce que p 2 * 0,6 , entonces tomaremos p2 = 0,6 y q2 = 1 0,6 = 0,4 con lo que:
n= 1,96 2 (38000)(0,6)(0,4) = 365,2583 5 366 0,05 2 (37999) + 1,96 2 (0,6)(0,4)

Cuando no hay informacin sobe las proporciones poblaciones siempre nos situamos en la peor de las situaciones para nosotros en trminos de coste, es decir, el caso en que ms tamao muestral se va a necesitar; sin embargo sta es la situacin de ms precisin, es decir, que lo que se pierde en trminos de coste se gana en trminos de precisin. Cualquier otro tamao muestral obtenido para valores dados de la proporcin poblacional distintos de 1/2 para cometer el mismo error de muestreo, ser siempre menor.

Muestreo estratificado sin y con reposicin

185

14.13.

Los 10000 trabajadores de una empresa fueron clasificados en tres grupos de edad, seleccionndose una muestra aleatoria simple en cada uno de ellos. Se obtuvieron las caractersticas siguientes para los tres grupos:
Gruposde Nmero total de edad trabajadores 18-35 36-50 51-65 2900 4700 2400 Nmero de Salario mensual Salario mensual Nmero de trabajadores Media muestral Desviacin tpica contratos inferiores seleccionados muestral a 2 aos 666 120500 38000 375 754 163000 35000 150 580 195000 40000 90

Realizar una estimacin por intervalos al 99% de confianza para el salario total percibido por los empleados ms jvenes. Hallar tambin la estimacin del salario mensual medio de los diez mil trabajadores, as como su error de muestreo. Hallar el reparto muestral ms eficiente en los distintos grupos de edad para estimar el salario mensual medio. Realizar una estimacin puntual de la proporcin de trabajadores de la empresa cuyo contrato tiene una duracin inferior a los dos aos, indicando el error de muestreo cometido. Calcular el nmero de trabajadores que sera necesario seleccionar para que el error de muestreo no superase el 6% si se deseara estimar la proporcin de trabajadores con ms de 50 aos que padecieron enfermedades por no cumplirse las normas de seguridad e higiene en sus puestos de trabajo. Sea X el salario mensual de un trabajador. Para estimar el salario total repartido entre los trabajadores ms jvenes mediante un intervalo de confianza, utilizaremos la expresin correspondiente al muestreo aleatorio simple aplicada al primer estrato:
n S2 n S2 I X = N 1 X 1 < h_ N 12 (1 < 1 ) 1 ; N 1 X 1 + h_ N 12 (1 < 1 ) 1 N 1 n1 N 1 n1
1

El intervalo de confianza ser entonces:


666 38000 2 2900 120500 2,575 2900 2 1 < = [339799178,2; 359100821,8] 2900 66

Para estimar el salario medio de todos los trabajadores utilizamos el estimador del muestreo aleatorio estratificado:
x st = Wh x h = 0,29 120500 + 0,47 163000 + 0,24 195000 = 158355
h =1 L

W1 =

N N1 N 2900 4700 2400 = = 0,29 , W2 = 2 = = 0,47 , W3 = 3 = = 0,24 N 10000 N 10000 N 10000

186 Muestreo estadstico. Conceptos y problemas resueltos

El error de muestreo de la estimacin anterior se calcular mediante:


( x st ) = m

Wh2 (1 < f h )
h =1

S h2 nh

cuyo valor es:

666 380002 754 350002 580 400002 0,29 2 1 < + 0,47 2 1 < + 0,24 2 1 < = 749,85 2900 666 4700 754 2400 580
La afijacin ms eficiente a realizar ser la de mnima varianza, que siempre supera en precisin a las dems. Tenemos:
nh = Nh Sh n

N
h =1

Sh

N
h =1

S h = 2900 38000 + 4700 35000 + 2400 40000 = 370700000

n1 =

2900 38000 2000 = 594,5508 5 595 370700000

n2 =
n3 =

4700 35000 2000 = 887,5101 5 887 370700000


2400 40000 2000 = 517,9390 5 518 370700000

Por tanto, el reparto muestral del enunciado no es el ms eficiente. Para estimar la proporcin de trabajadores con contrato inferior a dos aos, debemos obtener la estimacin de la proporcin poblacional en un muestreo aleatorio estratificado como sigue:
W P P st h h = 0, 29 0,5631 + 0,47 0,1989 + 0, 24 0,1552 = 0,2940
h =1 L

= 150 = 0,1989 , P = 375 = 0,5631 , P = 90 = 0,1552 P 1 2 3 666 754 580

El error de muestreo de la estimacin anterior ser:

)= (P m st

W
h =1

2 h

Q N h < nh P h h N h < 1 nh

Muestreo estratificado sin y con reposicin

187

cuyo valor es:

0,292

2900 < 6660,5631 0,4369 4700 < 7540,1989 0,8011 2400 < 5800,1552 0,8448 + 0,472 + 0,242 = 0,008 2899 666 4699 754 2399 580

En el ltimo apartado hallamos el tamao muestral necesario para estimar la proporcin de trabajadores en el tercer estrato con un error de muestreo del 6%, que vendr dado por:
n3 =
2 N 3 p3 q3 h_ 2,575 2 2400 0,5 0,5 = 386,4730 5 387 = 2 e2 0,06 2 (2399) + 2,575 2 0,5 0,5 p ( N 3 < 1) + h_ p 3 q 3
3

Hemos supuesto que p3 = 0,5 puesto que no se tiene informacin anterior sobre la proporcin de trabajadores de ms de 50 aos que padecieron enfermedades por motivos laborales. Hemos llegado a que, para estimar esta proporcin con un error de muestreo no superior al 6% habr que seleccionar al menos 387 trabajadores entre el grupo de los mayores de 50 aos.

4.14.

Para estudiar el terreno agrcola de una comarca se consideraron tres zonas segn su localizacin geogrfica y en cada una de ellas, de forma independiente, se seleccion, mediante un muestreo aleatorio simple, cierto nmero de fincas. Se tiene la siguiente informacin:
Zonas Nmero total Nmero de fincas Superficie media Desviacin tpica Nmero de fincas de fincas seleccionadas muestral (Ha) muestral (Ha) barbecho A 3200 380 28 3,5 124 B 5600 800 15 6,7 250 C 1200 200 45 8 17

Estimar puntualmente la superficie total del terreno agrcola en cada una de las zonas, as como su error de muestreo. Hallar los tamaos muestrales necesarios para realizar las estimaciones anteriores con unos errores de muestreo estimados inferiores a 1000 Ha y un coeficiente de confianza del 99%. Realizar una estimacin por intervalos al 99% de confianza de la superficie media de las fincas de la comarca y realizar la afijacin ms eficiente de la muestra anterior en las tres zonas para realizar la estimacin de la superficie media. Hallar tambin el tamao muestral y la afijacin que se debera haber realizado para estimar del modo ms eficiente posible la superficie total del terreno agrcola de la comarca con un error de muestreo no superior a 1000 Ha y una confianza del 99%. Estimar puntualmente el porcentaje global de fincas en barbecho y su error de muestreo. Sea X la variable superficie de una finca de la comarca. Los estimadores dentro de cada zona podrn obtenerse a travs de las frmulas del muestreo aleatorio simple y los globales a partir de las del muestreo estratificado ya que las fincas de la comarca han sido divididas en tres zonas o estratos, y en cada una de ellas se ha realizado un muestreo aleatorio simple de forma independiente entre ellas.

188 Muestreo estadstico. Conceptos y problemas resueltos

Los estimadores puntuales de la superficie total del terreno agrcola en cada una de = N x y su error de muestreo se calcula mediante: las zonas se calculan mediante X h h h
) = N 2 1 < h h , h = 1, 2, 3 (X m h h Nh nh n S

Tenemos los siguientes resultados:


= N x = 3200 28 = 89600 Ha X 1 1 1

) = 3200 2 1 < (X m 1

380 3,5 = 539,35 Ha 3200 380

= N x = 5600 15 = 84000 Ha X 2 2 2

) = 5600 2 1 < (X m 1

800 6,7 = 1228,13 Ha 5600 800

= N x = 1200 45 = 54000 Ha X 3 3 3

) = 1200 2 1 < (X m 1

200 1200

8 200

= 619,67 Ha

Los tamaos muestrales necesarios para realizar las estimaciones anteriores con unos errores de muestreo estimados inferiores a 1000 Ha y una confianza del 99% se calculan en cada estrato mediante:
nh =
2 h_ N h2 S h2 , h = 1, 2, 3 2 2 eT + N h h_ S h2
h

Para los distintos estratos tendremos:


n1 = 5600 2 2,575 2 3,5 2 = 660,1572 5 661 1000 2 + 3200 2,575 2 3,5 2

n2 =

5600 2 2,575 2 6,7 2 = 3500,1310 5 3501 1000 2 + 5600 2,575 2 6,7 2 1200 2 2,575 2 8 2 = 404,8936 5 405 1000 2 + 1200 2,575 2 8 2

n3 =

Muestreo estratificado sin y con reposicin

189

Para realizar la estimacin por intervalos al 99% de la superficie media de las fincas de la comarca, utilizaremos el estimador de la media global en el muestreo estratificado y, por tanto, el intervalo de confianza ser:
( x st ) x st h_ m

x st = Wh x h = 0,32 28 + 0,56 15 + 0,12 45 = 22,76


h =1

N = N h = 3200 + 5600 + 1200 = 10000


h =1

W1 =

N1 n 3200 380 = = 0,32 ; f 1 = 1 = = 0,1188 N 10000 N 1 3200 N2 n 800 5600 = = 0,56 ; f 2 = 2 = = 0,1429 N 2 5600 N 10000 N3 n 200 1200 = = 0,12 ; f 3 = 3 = = 0,1667 N 3 1200 N 10000

W2 =

W3 =

(xst ) = m

S W (1< f ) n
L h=1 2 h h

2 h h

) = 0,322 (1 < 0,1188

2 2 3,52 ) 6,7 + 0,122 (1 <1667) 8 = 0,147 + 0,562 (1 < 0,1429 380 800 200

Entonces:
( x st ) = 22,76 2,575 * 0,147 = [22,76 + 0,3805; 22,76 + 0,3805] = [22,3795; 23,1405] x st h_ m

La afijacin ms eficiente de la muestra anterior en las tres zonas para realizar la estimacin de la superficie media ser la afijacin de mnima varianza definida por:
Nh Sh

nh =

N
h =1

n , h = 1, ,L

Sh

Tenemos:

N
h =1

S h = 3200 3,5 + 5600 6,7 + 1200 8 = 58320

n = 380 + 800 + 200 = 1380 La afijacin ser la siguiente:

190 Muestreo estadstico. Conceptos y problemas resueltos

n1 =

3200 3,5 1380 = 265,0205 5 265 58320

n2 =

5600 6,7 1380 = 887,8189 5 888 58320


1200 8 1380 = 227,1605 5 227 58320

n3 =

En afijacin de mnima varianza puede expresarse el tamao muestral necesario para estimar el total con un error de muestreo dado e_ (1000 Ha) y un coeficiente de confianza adicional P_, (99% h_ = 2,575) mediante:

n=

h =1

N h2 S h2 wh
L h =1 2 h

e_

2 h_

+ NhS

wh =

Nh Sh

N
i =1

, h = 1, .,L

Sh

w1 = w2 =

3200 3,5 = 0,1920 58320 5600 6,7 = 0,6433 58320 1200 8 = 0,1646 58320

w3 =

3200 2 3,5 2 5600 2 6,7 2 1200 2 8 2 + + 0,1920 0,6433 0,1646 n= = 6564,1970 5 6565 1000 2 2 2 2 + 3200 3,5 + 5600 6,7 + 1200 8 2,575 2

La afijacin de los 6565 elementos muestrales en cada zona puede realizarse mediante:
nh = wh n , h = 1, ,L n1 = 0,1920 6565 = 1260,48 5 1261 n2 = 0,6433 6565 = 4223,36 5 4223 n3 = 0,1646 6565 = 1080,599 5 1081

Muestreo estratificado sin y con reposicin

191

Para estimar la proporcin de fincas dedicadas al barbecho, definimos:


1 si la finca i del estrato h se destina a barbecho h =1, 2, 3 Ahi = 0 en caso contrario

La proporcin poblacional de fincas dedicadas al barbecho se estima mediante:


N Nh = W P Ph = h P st h h = h =1 h =1 N h =1 N
L L L

A
i =1

Nh

ih

= 0,32

124 250 17 + 0,56 + 0,12 = 0,2896 380 800 200

= 1 P 1 n1 = 1 P 2 n2 = 1 P 3 n3

A
i =1 n2

n1

i1

124 = 0,3263 380 250 = 0,3125 800 17 = 0,085 200

A
i =1 n3

i2

A
i =1

i3

El error de muestreo de este estimador se puede aproximar mediante:


)= (P m st

Wh2
h =1

Q N h < nh P h h N h < 1 nh

) = 0,322 (P m st

3200< 3800,3263 0,6737 5600< 8000,3125 0,6875 1200< 2000,085 0.915 + 0,562 + 0,122 = 0,0011 3200<1 380 5600<1 800 1200<1 200

Un 28,96% de las fincas de la regin estn en barbecho, siendo el error de muestreo de esta estimacin 0,0011.

4.15.

En una ciudad turstica de temporada con 10000 viviendas se desea conocer la proporcin de viviendas en alquiler al menos una vez al ao. Para realizar el estudio, se selecciona en cada uno de los tres barrios existentes una muestra aleatoria de viviendas de tamao proporcional al nmero total de viviendas en cada uno. En el barrio A se seleccionaron 1050 viviendas, de las cuales haba 800 en alquiler al menos un mes al ao. En el barrio B se eligieron 900 viviendas, de las cuales haba 600 en alquiler al menos un mes al ao. En el barrio C se seleccionaron 1700 viviendas, de las cuales 1300 estaban en alquiler al menos un mes al ao. Estimar la proporcin de apartamentos que estaran dispuestos a ser alquilados al menos una vez al ao y cuantificar el error de muestreo cometido. Para estimar la proporcin de viviendas en alquiler al menos una vez al ao, definimos:
1 si la vivienda i del barrioo h se alquila al menos una vez al ao h = 1, 2, 3 Ahi = 0 en caso contrario

192 Muestreo estadstico. Conceptos y problemas resueltos

La proporcin de viviendas en alquiler al menos una vez al ao se estima mediante:


Nh = W P P Ph st h h = h =1 h =1 N
L L

h =1 ? Afijacin proporcional

= {

n h 1050 800 900 600 1700 1300 Ph = + + = 0,7397 n 3650 1050 3650 900 3650 1700

= 1 P 1 n1

Ai1 =
i =1

n1

800 = 1 = 0,7619, P 2 1050 n2

Ai 2 =
i =1

n2

600 = 1 = 0,6667 , P 3 n3 900

A
i =1

n3

i3

1300 = 0,7647 1700

n = n1 + n2 + n3 = 1050 + 900 + 1700 = 3650, N = 10000 Como la afijacin es proporcional:


N 1 n1 1050 1050 = = N1 = 10000 = 2877 N n 3650 3650 N n 900 900 W2 = 2 = 2 = N2 = 10000 = 2466 N n 3650 3650 N n 1700 1700 W3 = 3 = 3 = N3 = 10000 = 4658 N n 3650 3650 W1 =

El error de muestreo de este estimador se puede aproximar mediante:


)= (P m st

W
h =1

2 h

Q N h < nh P h h N h < 1 nh

) = 0,322 (P m st

0,6737 0,6875 1200< 2000,085 0.915 5600< 8000,3125 3200< 3800,3263 + 0,562 + 0,122 = 0,0011 1200<1 200 5600<1 800 3200<1 380

Un 28,96% de las fincas de la regin est en barbecho, siendo el error de muestreo de esta estimacin 0,0011.

4.16.

Una gran empresa sabe que el 40% de las cuentas que recibe es al por mayor y el 60% es al por menor. Sin embargo, identificar las cuentas individuales sin consultar un archivo es complicado. Un auditor desea muestrear n = 100 de sus cuentas para estimar la cantidad promedio de las cuentas por cobrar de la empresa. Una muestra irrestricta aleatoria presenta 70% de cuentas al por mayor y un 30% de cuentas al por menor. Los datos son separados en cuentas al por mayor y cuentas al por menor despus del muestreo, con los siguientes resultados en unidades monetarias: Por mayor n1 = 70 Por menor n2 = 30

= 210 S 1

y1 = 520

= 90 S 2

y 2 = 280

Estimar la cantidad promedio de las cuentas que recibe la empresa y fijar un lmite para el error de estimacin.

Muestreo estratificado sin y con reposicin

193

Como la proporcin observada de cuentas al por mayor (0,7) est muy alejada de la proporcin verdadera (0,4), la estratificacin despus de seleccionar la muestra irrestricta aleatoria (estratificacin a posteriori) puede ser adecuada, lo cual puede tambin ser justificado porque n1 y n2 exceden de 20. La cantidad promedio de cuentas que recibe la empresa se estima mediante:
x st = Wh x h =
h =1 h =1 L L

Nh x h = 0,4 520 + 0,6 280 = 376 N

El error de muestreo de la estimacin anterior se calcular mediante:


( x st ) = m

Wh2 (1 < f h )
h =1

S h2 nh

cuyo valor, omitiendo la correccin por poblacin finita, es:

0,4 2

2102 90 2 + 0,6 2 = 14,07 70 30

( x st ) 5 28, con lo que un intervalo El lmite para el error de estimacin al 95% ser 2m de confianza al 95% para la estimacin de la cantidad promedio de cuentas que recibe la empresa ser 376 28.

4.17.

Un farmacutico investiga el ingreso en caja obtenido por ventas a jubilados y al resto de sus clientes. Observa que el ltimo mes ha vendido productos a 750 jubilados y 346 al resto de sus clientes. Como los jubilados suelen tener tratamientos particulares propios de enfermedades habituales en ellos, puede considerarse como un estrato homogneo respecto de los productos que consumen. Lo mismo ocurre con el resto de los clientes. Como llevara tiempo analizar cliente a cliente, se toma una muestra de 24 clientes y se estratifica a posteriori en funcin de si se trata de jubilados o no. El ingreso neto en euros por cada cliente de la muestra se presenta a continuacin:
Cliente Ingreso Cliente Ingreso Cliente Ingreso Normal 173,69 Jubilado 277,67 Jubilado 271,3 Jubilado 301,29 Normal 133,24 Normal 171,89 Normal 165,22 Normal 163,17 Jubilado 275,8 Normal Jubilado Jubilado Normal Jubilado 141,72 367,94 328,63 179,7 337,77 Normal Normal Jubilado Normal Jubilado 246,48 176,7 292,09 187,52 349,79 Jubilado Normal Normal Normal Normal 235 181,2 177,37 161,37 215,76

Realizar una estimacin del ingreso neto del farmacutico y de su error de muestreo.

194 Muestreo estadstico. Conceptos y problemas resueltos

Como estamos ante un proceso de postestratificacin, el nmero de jubilados y personas normales muestreadas son variables aleatorias con 24 valores. La cantidad ingresada por el farmacutico se estima mediante:
' ' = N ' x = 750 303728 + 346 176,8 = 288968,8 euros X h h
h =1 L

La estimacin de la varianza se calcular mediante:


L L 2 + N ( N < n) S ' 2 (1 < f ) = 71689746,68 (X ' ' ) = N < n N ' uS V h h h h 2 n n h =1 h =1

El error relativo de muestreo ser:

v( X ' ' ) = 71689746,68 = 0,03 A 3% C 288968,8

Muestreo estratificado sin y con reposicin

195

EJERCICIOS PROPUESTOS
4.1.
Sea X la variable salario anual en millones de unidades monetarias. Al medir la variable X sobre una poblacin de 870 personas se obtiene la siguiente distribucin de frecuencias:
Valores de X 2 3 4 7 10 12 16 20 25 30 35 50 60 100 8 4 Frecuencias (ni) 20 30 60 100 150 200 120 80 50 20 18 10

Con el objeto de establecer pautas para futuras encuestas de salarios se estratifica la poblacin utilizando dos mtodos diferentes de estratificacin. El mtodo I consiste en realizar tres estratos segn los criterios dados por 2 ) X ) 7, 10 ) X ) 25, 30 ) X ) 100. El mtodo II consiste en realizar tres estratos segn los criterios dados por 2 ) X ) 10, 12 ) X ) 35, 50 ) X ) 100. Se pide lo siguiente: 1) Suponiendo muestreo con reposicin y para un tamao de muestra n = 100, realizar las afijaciones uniforme, proporcional y de mnima varianza para los dos mtodos de estratificacin. Comentar los resultados. Elegir el mejor mtodo de estratificacin y su tipo de afijacin justificando la respuesta. Cuantificar la ganancia en precisin para el mtodo y afijacin elegidos respecto del muestreo aleatorio simple con reposicin. 2) Responder a las mismas cuestiones del apartado anterior suponiendo muestreo sin reposicin. Comentar los resultados comparndolos con los del apartado anterior. 3) Para la misma muestra de tamao 100 realizar la afijacin ptima para los dos mtodos de estratificacin, siendo los costes por unidad en cada estrato los siguientes: C11 = 1, C21 = 16, C31 = 25, C12 = 4, C22 = 9 y C32 = 36, donde Cij = Coste por unidad en el estrato i segn el mtodo de estratificacin j. Considerar muestreo sin reposicin y con reposicin y comparar los resultados. Para este tipo de afijacin cul es el mejor mtodo de estratificacin? Razona la respuesta. 4) En una encuesta de salarios posterior, qu tamao de muestra sera necesario para conseguir un error de muestreo de 0,5 al estimar la media salarial sin reposicin y afijacin de mnima varianza? y si el muestreo es con reposicin? Comentar los resultados. 5) En una encuesta de salarios posterior qu tamao de muestra sera necesario para conseguir un error relativo de muestreo del 15% al 95% de coeficiente de confianza ( hr_ =1,96) al estimar el total salarial con reposicin y afijacin proporcional. Y si el muestreo es sin reposicin? Comentar los resultados.

4.2.

Se van a muestrear las familias de un pueblo para estimar la cantidad promedio de bienes por familia que se pueden convertir en dinero efectivo rpidamente. Las familias se estratifican en un estrato de renta alta y otro de renta baja. Se piensa que una casa en el estrato de renta alta tiene cerca de nueve veces ms bienes que una casa en el estrato de renta baja, y se espera que Sh sea proporcional a la raz cuadrada de la media del estrato. Se sabe que existen 4000 familias en el estrato de renta alta y 20000 familias en el estrato de renta baja. Se pide: a) Cmo se distribuira de forma ptima entre los dos estratos una muestra de 1000 familias extrada de la poblacin? b) Si el objetivo es estimar la diferencia entre bienes por familia en ambos estratos cmo debe distribuirse la muestra?

196 Muestreo estadstico. Conceptos y problemas resueltos

4.3.

Consideramos un proceso de muestreo estratificado con afijacin ptima en el que se define la funcin de coste total C de la siguiente forma:

C = c0 + c h n h
h =1

donde c0 representa un coste fijo dado y los ch son tambin conocidos y representan el coste unitario en el estrato h (h = 1, 2, ..., L). Se pide: 1 Realizar la afijacin de mnima varianza para un coste total C fijo al estimar la media poblacional y hallar la expresin general que nos da la varianza mnima. 2 Responder a las preguntas del apartado anterior considerando la extraccin de una muestra estratificada de tamao 1000 de una poblacin de tamao 10000 con los datos que se dan a continuacin. Comparar los resultados con los que se obtendran para afijacin ptima con funcin de coste lineal y cuantificar la ganancia en precisin. Comentar los resultados. Sh ch Estrato Wh 1 0,4 4 1 2 0,3 5 2 3 0,3 6 3

4.4.

Supongamos conocidos los siguientes datos de una poblacin dividida en tres estratos: S12 = 9, S22 = 225, S32 = 1600, N1 = 1000, N2 = 600, N3 = 200, C1 = 1000, C2 = 1200 y C3 = 2000. Se pide lo siguiente: a) Determinar el coste de una muestra estratificada que proporciona un error relativo de muestreo de 5% para estimar la media considerando afijaciones proporcional, de mnima varianza y ptima, respectivamente. Se sabe que X = 22 y que la funcin de coste es lineal. Comentar los resultados obtenidos para cada tipo de afijacin y justificarlos. b) Contestar a las mismas cuestiones del apartado anterior, pero con reposicin, y comparar los resultados con los obtenidos en el apartado a). Justificar los resultados y comprobar que la afijacin ptima y la de mnima varianza coinciden para costes unitarios.

CAPTULO MUESTREO SISTEMTICO

OBJETIVOS
1. Presentar el concepto de muestreo sistemtico. 2. Comprender las especificaciones del muestreo sistemtico. 3. Analizar estimadores y errores en el muestreo sistemtico. 4. Comprender el concepto de coeficiente de correlacin intramuestral. 5. Analizar errores en funcin del coeficiente de correlacin intramuestral. 6. Relacionar el muestreo sistemtico con el muestreo aleatorio simple. 7. Relacionar el muestreo sistemtico con el muestreo estratificado. 8. Comprender el concepto de coeficiente de correlacin intraestratal. 9. Analizar errores en funcin del coeficiente de correlacin intraestratal. 10. Realizar la estimacin de varianzas. 11. Relacionar el muestreo sistemtico con el muestreo por conglomerados.

198 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo sistemtico. Especificaciones. 2. Estimadores y varianzas. 3. Relacin entre el muestreo sistemtico y el muestreo aleatorio simple. 4. Relacin entre el muestreo sistemtico y el muestreo estratificado. 5. Estimacin de varianzas. 6. Relacin entre el muestreo sistemtico y el muestreo por conglomerados. 7. Problemas resueltos. 8. Ejercicios propuestos

Muestreo sistemtico

199

MUESTREO SISTEMTICO. ESPECIFICACIONES


Partimos de una poblacin de tamao N, y agrupamos sus elementos en n zonas (filas) de tamao k (N = nk). Podramos representar la poblacin como sigue:

i \ j 1 2 M i M n

1 u 11 u 21 M u i1 M u n1

2 u 12 u 22 M ui2 M u n2

3 u 13 u 23 M u i3 M u n3

L L L L L

j u1 j u1 j M u1 j M u nj

L L L L L

k u 1k u 2k M u ik M u nk

A continuacin se numeran los elementos de la tabla anterior de izquierda a derecha empezando por la primera unidad de la primera fila y pasando a la primera unidad de la fila siguiente cuando se agota cualquier fila. Tendramos la siguiente estructura:

i\j 1 2 3 M i M n u1

1 u2 uk +1 u2 k +1

2 u3 uk +2 u2 k +2

3 uk +3 u2 k +3 M u(i<1) k +3 M

j u L j L uk + j L u2 k + j M L u(i<1) k + j M

L L uk

L uk +k u2 k +k M L u(i<1) k +k M

M M u(i<1) k +1 u(i<1) k +2 M M

u( n<1) k +1 u( n<1) k +2 u( n<1) k +3 L u(n<1) k + j L u(n<1) k +k 12 44 3 uN

Para extraer una muestra de tamao n se elige al azar una unidad en la primera zona, y para seleccionar las n < 1 unidades restantes para la muestra se toma en cada zona la unidad que ocupa el mismo lugar dentro de su zona que el que ocupaba la primera unidad seleccionada dentro de la primera zona. Por ejemplo, si la unidad seleccionada para la muestra al azar en la primera zona es la tercera, se elegirn las n < 1 unidades restantes para la muestra tomando la tercera unidad de cada zona. Las muestras sistemticas as obtenidas (columnas de la tabla anterior) suelen denominarse muestras 1 en k. La probabilidad de seleccionar cualquier muestra ser la probabilidad de elegir la unidad que la origina en la primera fila por muestreo aleatorio simple, es decir, 1/k. Por tanto, el muestreo sistemtico proporciona muestras equiprobables. Por otro lado, la probabilidad que tiene cualquier unidad de la poblacin (de N unidades) de pertenecer a la muestra (de tamao k) es k/N = k/nk = 1/n; por lo tanto, el muestreo sistemtico es un tipo de muestreo con probabilidades iguales. Las muestras del espacio muestral pueden representarse como sigue:

200 Muestreo estadstico. Conceptos y problemas resueltos

~ ) = {u (u
1

, u 1+ k , L u 1+ ( n < 1 ) k

LLLLLLLLLLL ~ ) = {u (u
j j

, u j + k , L u j + ( n < 1) k , u k + k , L u k + ( n < 1) k

}
}

LLLLLLLLLLL ~ ) = {u (u
k k

El muestreo sistemtico extiende la muestra a toda la poblacin, recoge el posible efecto de estratificacin debido al orden en que figuran las unidades de la poblacin (cada fila se puede considerar como un estrato), permite la consideracin de conglomerados en la poblacin (cada columna se puede considerar como un conglomerado), es fcil de aplicar y comprobar, no presenta problemas de clculo algebraico y no precisa distincin entre reposicin y no reposicin. Adems, si la disposicin de los elementos en la poblacin es aleatoria, la seleccin sistemtica equivale a un muestreo aleatorio simple. Por ltimo, el error de muestreo suele ser menor que en muestreo aleatorio simple o incluso que en estratificado. Por otro lado, hay que tener presente la posibilidad de aumento de la varianza si existe periodicidad en la poblacin y el problema terico que se presenta en la estimacin de varianzas debido a que no hay independencia en la seleccin de unidades en las distintas zonas, ya que la unidades extradas en cada zona dependen de la seleccionada en la primera zona. En general slo hay seleccin aleatoria para la primera unidad de la muestra.

ESTIMADORES Y VARIANZAS
Se utilizar el estimador lineal insesgado de Horwitz y Thompson porque el muestreo sistemtico es sin reposicin. En general sabemos que:

e$

HT

=
i

/i

Yi

estima insesgadamente el parmetro poblacional e =

Y
i

En muestreo sistemtico la probabilidad /i de seleccin de un elemento poblacional cualquiera para la muestra ser igual a la probabilidad de que resulte elegida la zona que lo contiene, esto es, /i = 1/k = n/(nk) = n/N, luego podemos utilizar la forma general del estimador de Horwitz y Thompson para asegurar lo siguiente:

e$ =
i j

Yij estima insesgadamente el parmetro poblacional e = 1 k

Y .
i j ij

Si aplicamos la expresin anterior a las estimaciones del total, media, proporcin y total de clase poblacionales, se obtienen los siguientes estimadores:

Muestreo sistemtico

201

X ij n 1 n = k X ij = N. X ij = Nx j ? n i=1 i j =1 1 i =1 n N k X ij n 1 n X ij = nk = 1 X = x MediaA e = X Yij = X ij j N n i=1 i j =1 1 { nk k Aij n n 1 Aij = nk = 1 A = P ProporcinA e = P Yij = P ij j 1 nk n i j =1 i =1 k n 1 A n 1 n ij = Totaldeclase A e = X Yij = Aij A = k A = N . Aij = NP ij j ? n i=1 i j =1 1 i =1 n N k = Total A e = X Yij = X ij X
n 1

Hemos demostrado que un estimador lineal insesgado para la media poblacional es la media de la muestra sistemtica obtenida, para la proporcin poblacional es la proporcin de la muestra sistemtica, para el total poblacional es N veces el total de la muestra sistemtica, y para el total de clase es N veces el total de clase muestral. Es decir, podemos escribir lo siguiente:

= Nx Total A X j

=x Media A X j =P Proporcin A P

= NP Total de clase A A j

Varianzas de los estimadores


Definimos la cuasivarianza entre las k muestras posibles o cuasivarianza intermuestral como:

1 n k S = (x j < X ) k <1 i j
2 bs

y la cuasivarianza dentro de las muestras o cuasivarianza intramuestral como:

1 n k S = (Xij < x j ) N <k i j


2 ws

Con lo que la descomposicin de la suma de cuadrados para el anlisis de la varianza poblacional permite escribir lo siguiente:

(X

2 2 2 2 ( N < 1)S 2 = ( N < k )Sws + (k < 1)Sbs ij < X ) = ( X ij < x j ) + (x j < X ) i =1 j =1 i =1 j =1 i =1 j =1 1 4 4 244 3 1 442443 1 44 244 3
( N <1) S 2
2 ( N < k ) S ws 2 ( k <1) Sbs

202 Muestreo estadstico. Conceptos y problemas resueltos

A partir de la tabla del anlisis de la varianza para la poblacin que se presenta a continuacin, pueden calcularse los errores de los estimadores.
Fuente de variacin Entre muestas Dentro de muestras Total Grados de libertad k <1 N <k k <1+ (N < k ) = N <1
2

Sumas de cuadrados

(x
i j n k i n i j k

<X
ij

Cuadrados medios
2 S bs

(X (X
j

<xj

2 S ws

ij

<Xj

S2
2 S bs n
k j j

) = V (x ) = (1 < f ) S bs , V (X j n
) = V P =1 V (P j k
k 2 j j

) = V (Nx ) = N 2V ( x ) = N 2 (1 < f ) V (X j j
n i k 2 n i k 2 j j

< P) = 1 < P) = 1 < P ) = PQ < 1 P ( ) (P (P (P Q nk N k


j j j

) = V NP = N 2V P = N2 1 V (A j j k

( )

( )

< P) = N < P ) = N PQ < 1 P Q (P (P k


k n i k j j j j 2 k

Un concepto interesante en muestreo sistemtico es el coeficiente de correlacin intramuestral lw, que mide la interrelacin entre las unidades dentro de las muestras. Lgicamente, esta interrelacin debe ser lo ms pequea posible, ya que en el muestreo sistemtico interesa la heterogeneidad intramuestral, con la finalidad de que una nica muestra sistemtica represente lo mejor posible a toda la poblacin. Para que una muestra sistemtica aspire a ser fiel espejo de toda la poblacin ha de ser heterognea, y la interrelacin entre sus unidades ha de ser baja. Por lo tanto, inicialmente parece lgico que interesen valores muy pequeos del coeficiente de correlacin intramuestral. La expresin matemtica de l w es la siguiente:

lw =

2 (X ij < X )(X zj < X )


j i< z

N (n < 1)m 2

, m2 =

1 k n (X ij < X ) = varianza poblacional nk j i

La varianza de los estimadores puede expresarse en funcin de lw. Para la media tenemos: 2 m2 [1 + (n < 1)l w ] = N < 1 S [1 + (n < 1)l w ] V (x j ) = n N n 2 2 ) = V Nx = N 2V x = N 2 m [1 + (n < 1)l ] = N ( N < 1) S [1 + (n < 1)l ] V (X j j w w n n = N 2 PQ [1 + (n < 1)l ] = PQ [1 + (n < 1)l ] V P V A j w w n n Segn esta expresin, la precisin del muestreo sistemtico puede analizarse en funcin del coeficiente de correlacin intramuestral, de tal modo que la precisin mxima se produce para lt = < 1/(n-1), y la mnima para lt = 0, igualndose la precisin del muestreo sistemtico con la del muestreo aleatorio simple para lt = 0. De esta forma, para valores de lt entre <1/(n-1) y 0, el muestreo sistemtico es ms preciso que el aleatorio simple, y para valores de lt entre 0 y 1, el muestreo sistemtico es menos preciso que el aleatorio simple. Por lo tanto, en cuanto a precisin, convienen valores negativos del coeficiente de correlacin intraconglomerados lt .

( )

( )

()

Muestreo sistemtico

203

RELACIN ENTRE MUESTREO SISTEMTICO Y MUESTREO ALEATORIO SIMPLE


El muestreo sistemtico se ide con la finalidad de mejorar el muestreo aleatorio simple. Pero habr ocasiones en que esta mejora es mxima. Se demuestra que mientras ms supera 2 a la cuasivarianza poblacional S2 el muestreo sistemtico la cuasivarianza intramuestral S ws ms gana en precisin al aleatorio simple. El prrafo anterior puede interpretarse diciendo que el muestreo sistemtico es ms preciso que el aleatorio simple cuando la variabilidad dentro de muestras es superior a la variabilidad dentro de las unidades de la poblacin. La precisin del muestreo sistemtico 2 = S2, es decir, cuando la variabilidad dentro coincide con la del aleatorio simple cuando S ws de muestras es similar a la variabilidad dentro de las unidades de la poblacin, y esto se da cuando la disposicin de los elementos en la poblacin es aleatoria.

RELACIN ENTRE MUESTREO SISTEMTICO Y MUESTREO ESTRATIFICADO


En el muestreo sistemtico puede considerarse cada zona de k elementos consecutivos a partir del primero como un estrato; es decir, se puede dividir la poblacin en n estratos constituidos cada uno de ellos por una fila de la tabla (k unidades) del cuadro en que hemos representado los elementos de la poblacin numerados consecutivamente.

1 2 M M M M i x1+ (i <1)kL x j + (i <1)k L xk + (i <1)k M M M M n x1+ (n <1)k x j + (n <1)k xk + (n <1)k


Obtener una muestra sistemtica sera entonces equivalente a obtener una muestra estratificada con una unidad por estrato. Debe tenerse en cuenta, sin embargo, que en el muestreo estratificado aleatorio la seleccin se efecta independientemente en cada estrato, mientras que en el muestreo sistemtico todos los elementos seleccionados ocupan el mismo lugar o nmero de orden dentro de cada zona de k elementos, con la que no hay aleatoriedad de seleccin. Adems, sera conveniente que las n zonas sistemticas de k elementos cada una (estratos) sean lo ms homogneas posible dentro de ellas y heterogneas entre ellas. Esta clasificacin de los elementos de la poblacin en n filas de k unidades cada una origina la siguiente tabla del anlisis de la varianza poblacional:
Fuente de variacin Entre estratos Dentro de estratos Total Grados de libertad n <1 N <n n < 1 + ( N < n) = N < 1 Sumas de cuadrados Cuadrados medios
2 S bst 2

1 x1 x1+ k

j xj x j+k

k xk xk + k

(X
n i k j

<X)

(X
n i k

(X
n i j

j k

ij

< Xi) <X


j

2 S wst

ij

S2

204 Muestreo estadstico. Conceptos y problemas resueltos

Si definimos la cuasivarianza entre las n estratos posibles, o cuasivarianza interestratal como:


2 Sbss =

1 n k X i < X n <1 i j

y la cuasivarianza dentro de los estratos o cuasivarianza intraestratal como:

1 n k S = Xij < Xi2 N <n i j


2 wss

tenemos:

(X

2 2 )S 2 = ( N < n)Swst + (n <1)Sbst ij < X ) = (X ij < X i ) + ( X i < X ) ( N <1 i=1 j =1 i=1 j =1 i=1 j =1 1 44 244 3 1 442443 1 44 244 3

( N <1) S 2

2 ( N <n) Swst

2 ( n<1) Sbst

Tenemos entonces que la varianza de la media puede expresarse como:


L n n Si2 1 1 n 2 1 2 2 V X = V (xst ) = Wh V (xh ) = Wi V ( xi ) = 2 (1 < f i ) u = 2 1 < Si = ni n k i h i i n 2 S wst N <n 2 1 1 n 1 k 1 n k ( ) ( ) X X X X S f < < = < = = ( 1 < ) 1 ij i n2k ij i wst Nn n n 2 k i k <1 j i j 1 4 4 244 3 2 ( N <n)Swst 2 2

()

Si definimos ahora el coeficiente de correlacin intraestratal ltst como el coeficiente de correlacin lineal entre las desviaciones respecto de las medias de los estratos de todos los pares de valores que estn en la misma muestra sistemtica, su expresin puede calcularse de la siguiente forma:

ltst =

cov(X ij ; X zj ) 1 k n (X ij < X i )2 N j i=1

1 k n (X ij < X i )(X zj < X z ) k n n j i< z k 2(X ij < X i )(X zj < X z ) 2 j i< z = = k n 2 1 2 n(n <1)(k <1)S wst ( ) < X X ij i N j i=1 1442443 2 ( N <n)Swst

Se demuestra que la varianza del estimador de la media en funcin de ltst y Stst tiene la forma siguiente:

) = V (x ) = (1 < f ) S wst (1 + (n < 1) l ) V (X tst j n


y lo mismo se calcularan las varianzas del resto de los estimadores en funcin del coeficiente de correlacin intraestratal ltst.

Muestreo sistemtico

205

La precisin mxima, que evidentemente se da cuando el error de muestreo es cero (V( x j ) = 0), se produce si (n<1)ltst = <1, luego se puede asegurar que la precisin mxima si: V( x j ) = 0 l tst = <

1 n <1

La precisin mnima, que evidentemente se da cuando la varianza es mxima, se produce si ltst = 1 (valor mximo de ltst que ser el que efectivamente hace mxima V( x j )), luego se puede asegurar que PRECISIN MNIMA ltst = 1. Por otra parte:
2 S wst n

ltst = 0 V( x j ) = (1 < f )

con lo que el muestreo sistemtico coincide en precisin con el muestreo aleatorio estratificado considerando seleccin aleatoria independiente en cada estrato. De esta forma, ltst es en cierta forma una medida de la falta de aleatoriedad en la seleccin de unidades para la muestra en las distintas zonas sistemticas (filas o estratos).

ESTIMACIN DE VARIANZAS
No podemos decir que en muestreo sistemtico haya un mtodo directo para la estimacin de varianzas a partir de una muestra sistemtica. Tenemos las siguientes situaciones: a) lt prximo a cero o S2ws = S2 Si el coeficiente de correlacin intramuestral se aproxima a cero puede suponerse la poblacin aleatoria y si S2ws = S2 la precisin del aleatorio simple y el estratificado coinciden, con lo que la estimacin de la varianza puede realizarse con la misma expresin que en muestreo aleatorio simple, es decir:

$ 2 la cuasivarianza de la muestra sistemtica. siendo S


b) ltst prximo a cero

$2 S $ ( ) V x = (1 < f ) u n

Si ltst se aproxima a cero se puede utilizar el muestreo sistemtico como muestreo estratificado considerando cada zona sistemtica como un estrato y seleccionando una muestra estratificada con una unidad por estrato. La razn de esta utilizacin es que la precisin del muestreo sistemtico se iguala con la del muestreo aleatorio estratificado para ltst = 0. En la prctica, lo que se hace es mezclar, antes de la seleccin, las 2 k unidades de dos zonas en una nica zona, con lo que se transforman las n zonas de k unidades cada una en n/2 zonas de 2k unidades cada una (si n es impar, para la zona que queda suelta se repite aleatoriamente un elemento de la muestra). Con este modelo se transforman las n zonas de k unidades en n/2 zonas de 2k unidades. Con ello se dispone de dos unidades muestrales por zona. Aplicando las frmulas de muestreo estratificado tendremos:

$( x ) V st

2 $2 2 ( x h1 < x h 2 ) S 2 = Wh2 ( 1 < f h ) u h = ( 1 < f ) u nh 2 h h n

n 2

1< f = 2 n

( x
h

n 2

h1

< xh2 )

206 Muestreo estadstico. Conceptos y problemas resueltos

c) Ni lt ni ltst estn prximos a cero En este caso utilizaremos alguno de los mtodos especiales generales para la estimacin de varianzas. Concretamente podemos utilizar el mtodo de las muestras interpenetrantes, que se utiliza cuando tenemos un conjunto de dos o ms muestras, elegidas con el mismo esquema de muestreo (independientes o no) y tales que cada una proporcione una estimacin vlida del parmetro que se pretenda estimar con el mismo error de muestreo. Si las muestras son independientes es fcil obtener un estimador insesgado de la varianza del estimador. Para aplicar el mtodo de las muestras interpenetrantes al muestreo sistemtico supongamos que en vez de elegir una muestra sistemtica de tamao n para un solo valor j, 1 ) j ) k , es decir, con un solo arranque aleatorio, obtenemos t muestras de tamao n/t utilizando t arranques aleatorios. Estas muestras pueden considerarse independientes, ya que la eleccin del arranque es aleatoria en la primera zona sistemtica. Podemos formar un estimador combinado de la media poblacional basado en las medias de las t muestras (cada media muestral es un estimador insesgado de la misma media poblacional) definido como:

xc =

1 t x t 1 t

siendo el estimador insesgado de su varianza mediante la aplicacin del mtodo de las muestras interpenetrantes:

$( x ) = V c

t t t 1 1 t 2 1 2 2 2 xi < x c = xi < tx c = xi2 < x c2 ) ( ( ) ( ) ( ) t t <1 i t t <1 i t t <1 i i

La frmula puede multiplicarse tambin por (1-f). En particular para t = 2 tenemos:


2 2 ( x1 < x2 ) x1 + x 2 x1 + x 2 x1 + x 2 2 2 $ + x2 < = xc = V ( x c ) = x1 < 2 2 2 4 2

Se observa que al aumentar el nmero de arranques aleatorios, manteniendo el mismo tamao de muestra, la precisin obtenida se aproxima a la del muestreo aleatorio simple.

RELACIN ENTRE MUESTREO SISTEMTICO Y POR CONGLOMERADOS


En el muestreo sistemtico puede considerarse cada columna de n elementos como un conglomerado; es decir, se puede dividir la poblacin en k conglomerados constituidos cada uno de ellos por una columna de la tabla (n unidades). Obtener una muestra sistemtica sera entonces equivalente a obtener una muestra por conglomerados de tamao 1.

1 2 M M M M i x1+(i <1)k L x j +(i <1)k L x k +(i <1)k M M M M n x1+(n <1)k x j +(n <1)k x k +(n <1) k

1 x1 x1+ k

j xj x j +k

k xk xk +k

Muestreo sistemtico

207

PROBLEMAS RESUELTOS
5.1.
En un proceso de fabricacin de automviles se trata de analizar la produccin de piezas en serie de trece robots. Para ello se controlaron las piezas producidas por los trece robots en la primera hora de su funcionamiento y se obtuvo la siguiente distribucin:
N de robot 1 2 3 4 5 6 7 8 9 10 11 12 13 N de piezas producidas 5 5 4 2 5 4 5 4 3 4 4 3 2

Con la finalidad de estimar el nmero de piezas defectuosas en el proceso de fabricacin, se realiza un muestreo sistemtico 1 en 5, es decir, se selecciona una de cada cinco piezas empezando por la primera pieza del primer robot hasta que se agoten sus piezas, para pasar a continuacin a la primera pieza del segundo robot hasta que se agoten sus piezas, y as sucesivamente hasta que se agoten todas las piezas de todos los robots. Suponiendo que la primera pieza producida por cada robot es defectuosa y que todas las dems son correctas, se pide lo siguiente: a) Calcular la varianza del estimador de la proporcin de piezas defectuosas producidas por los robots y el valor del coeficiente de correlacin intramuestral. Existir ganancia en precisin respecto de un muestreo irrestricto aleatorio con fraccin de muestreo del 20%? Por qu? Cuantificarla. Realizar la tabla del anlisis de la varianza para la produccin total. b) Estimar la varianza para cada muestra sistemtica posible segn nuestro procedimiento de muestreo. Con qu muestra sistemtica nos quedaremos que represente mejor a toda la produccin? Existir ganancia en precisin si se estiman las varianzas utilizando estratificacin? Dar la estimacin de la proporcin de piezas defectuosas producidas por los robots. Si definimos una variable dicotmica A a la que asignamos el valor 1 para las piezas defectuosas y el valor 0 para las piezas correctas, y clasificamos las 50 piezas en 10 filas de 5 piezas cada una (muestreo sistemtico 1 en 5) siguiendo el orden del enunciado del problema, tendremos la tabla de la Figura 5-1. A continuacin, se construye la tabla del anlisis de la varianza para la poblacin (produccin total) utilizando Excel. Como estamos clasificando los datos en 5 grupos (columnas), utilizaremos una variable G, que clasificar los valores de A (ceros o unos) por grupos (por columnas). Introducimos los valores de G en columnas de la hoja de clculo de Excel y elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del men Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-2. La Figura 5-3 presenta los resultados.

208 Muestreo estadstico. Conceptos y problemas resueltos


1 1 1 0 0 1 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1/ 5 1/ 5 2/5 1/ 5 1/ 5 1/ 5 2/5 1/ 5

0 1 0 0 0 1/ 5 1 0 0 1 0 2/5 6 / 10 3 / 10 1 / 10 1 / 10 2 / 10 13 / 50

Figura 5-1

Figura 5-2

Figura 5-3 Con la notacin que utilizamos habitualmente, la tabla ANOVA ser:
Fuente Entre Dentro Total Grados de libertad k <1= 5 <1= 4 N < k = 50 < 5 = 45 N < 1 = 50 < 1 = 49 Sumas de cuadrados Cuadrados medios
2 S bs = 1,72 / 4 = 0,43

(x
i j n k

< X ) = 1,72
2 ij

(X (X
i j i n k j

< x j ) = 7,9
2

2 S ws = 7,9 / 45 = 0,1755

ij

<X

) = 9,62

S 2 = 9,62 / 49 = 0,1963

Muestreo sistemtico

209

Conocida esta tabla, pueden realizarse ya todos los clculos. La varianza del estimador de la proporcin puede calcularse como:
2 S2 n S bs 1 0,43 ) = V P = V (P = (1 < f ) bs = (1 < ) = 0,0344 1 < j n N n 5 10

( )

La varianza para el estimador del total de clase ser:

) = V NP = N 2V ( P ) = N 2 (1 < f ) S bs = 50 2 0,0344 = 86 V (A j j n
Del valor de la varianza puede deducirse el valor del coeficiente de correlacin intramuestral a travs de la frmula V ( x j ) =

( )

m2
n

(1 + (n < 1) l t ) . Tendremos:

49 0 ,1963 50 0 , 0344 = (1 + (10 < 1) l t ) l t = 0 , 0875 10

Se observa un valor de lt muy cercano a cero, lo que indica que el muestreo sistemtico va a tener una precisin muy cercana a la del aleatorio simple en la estimacin de la proporcin de piezas defectuosas. Esto concuerda con el hecho de que S2 y S2ws tambin tienen valores muy cercanos. Concretamente S2 = 0,1963 > S2ws = 0,1755, lo que indica que es ms preciso el muestreo aleatorio simple. La varianza del estimador de la proporcin en el muestreo aleatorio simple es (1<1/5)0,1963/10 = 0,0157, lo que indica que la ganancia en precisin del aleatorio simple ser (0,0344 < 0,0157)/0,0344 = 54,3%. Dado el valor del coeficiente de correlacin intramuestral, muy cercano a cero, podemos estimar varianzas mediante la frmula del muestreo aleatorio simple. Se tiene:
6 6 1< 1 10 1 2 Q P S 10 P = (1 < f ) 1 = (1 < f ) 1 1 = 1 < = 0,0213 V 1 n < 1 5 10 < 1 n

( )

3 3 1 < 2 P2 Q2 1 10 1 10 S2 = 0,0186 = (1 < f ) = 1 < V P2 = (1 < f ) n < 1 5 10 < 1 n

( )

1 1 1 < 2 1 10 1 10 P = (1 < f ) S 3 = (1 < f ) P3 Q3 = = 0,008 < 1 V 3 n < 1 5 10 < 1 n

( )

P =V P = 0,008 V 4 3
2 2 1 < 2 1 10 1 10 P = (1 < f ) S 5 = (1 < f ) P5 Q5 = V = 0,0142 1 < 5 n n < 1 5 10 < 1

( ) ( )

( )

Segn estos resultados la muestras ms precisas son la tercera y la cuarta.

210 Muestreo estadstico. Conceptos y problemas resueltos

Tambin podemos estimar la varianza a partir del muestreo estratificado, agrupando las 10 filas (estratos) de la poblacin en grupos de 2, y considerando cada dos filas como un estrato del que seleccionamos dos unidades para la muestra. Tendremos:

P = 1< f V 1 n2

( )

(x
h n

n 2

h1

< xh 2 ) =
2

1 < 0,2 (1 < 1) 2 + (1 < 0) 2 + (0 < 1) 2 + (1 < 0) 2 + (0 < 1) 2 = 0,032 102

2 P = 1 < f (x < x )2 = 1 < 0,2 (0 < 0) 2 + (0 < 1) 2 + (1 < 0) 2 + (0 < 0) 2 + (1 < 0) 2 = 0,024 V 2 h1 h2 n2 h 102 P = 0,008(0 < 1) 2 = 0,008 = V P P = 0,008 (1 < 0) 2 + (1 < 0) 2 = 0,016 V V

( ) ( )
3

( )
4

( )
5

Las mejores muestras segn el mtodo del muestreo estratificado tambin resultan ser la tercera y la cuarta, y adems coinciden en varianza con el mtodo anterior. Para las restantes muestras se observa ganancia en precisin del mtodo de estimacin utilizando la frmula del muestreo aleatorio simple. La proporcin estimada de piezas defectuosas producidas ser la =P =P = 1 / 10 ; es decir que se estima un 10% derivada de la 3 o 4 muestra, esto es: P 3 4 de produccin defectuosa.

5.2.

En una poblacin de 8 tipos de maletines de herramientas medimos el nmero de elementos importantes que faltan para considerarse de primera calidad:
mi Xi m1 1 m2 3 m3 5 m4 2 m5 4 m6 6 m7 2 m8 7

Se realiza muestreo sistemtico 1 en 2 y se pide: a) Calcular las varianzas de los estimadores insesgados del total y de la media de elementos importantes ausentes en los maletines. Utilizar adicionalmente la relacin entre muestreo sistemtico y estratificado. b) Estimar dichas varianzas y comparar la precisin de este tipo de muestreo con la del muestreo aleatorio simple. Seleccionar la muestra ms precisa. Como se trata de un muestreo sistemtico 1 en 2 y N = 8, habr dos muestras sistemticas posibles de tamao 4 (columnas). Dividiremos entonces la poblacin en 4 zonas (filas) de 2 elementos cada una de la forma:
1 5 4 2 3 3 2 6 7 4 ,5 2 3,5 5 4 ,5 3,75

(x
i =1 j =1 3 3 i =1 j =1 3 3

< X ) 2 = 4 (3 < 3,75 ) + (4,5 < 3,75 ) = 4,5


2 2 ij

(X (X
i =1 j =1

< x j ) 2 =(1 < 3) + (5 < 3) + ... + (6 < 4,5) + (7 < 4,5) 2 = 27


2 2 2

ij

< X ) 2 =(1 < 3,75 ) + (5 < 3,75 ) + ... + (7 < 3,75) 2 = 31,5
2 2

Hemos creado un cuadro con las muestras sistemticas como columnas, colocando una fila adicional inferior con las medias de las columnas y una columna adicional a la derecha con las medias de las filas.

Muestreo sistemtico

211

A continuacin, se construye la tabla del anlisis de la varianza para la poblacin utilizando Excel. Como estamos clasificando los datos en 2 grupos (columnas), utilizaremos las variables M1 y M2, que recogen los valores de las dos columnas. A continuacin elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del men Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-4. La Figura 5-5 presenta los resultados.

Figura 5-4

Figura 5-5 Mediante Excel se ha hallado la siguiente tabla del anlisis de la varianza:
Fuente de variacin Entre muestras Dentro de muestras Total Grados de libertad k <1 = 2 <1 = 1 N <k = 8<2 = 6 N <1 = 8 <1 = 7 Sumas de cuadrados Cuadrados medios
2 S bs = 4,5 / 1 = 4,5

(x
n i k j n i k

<X
ij

= 4,5
2

(X (X
n i k j j

< x j ) = 27 < X j = 31,5

2 S ws = 27 / 6 = 4,5

ij

S 2 = 31,5 / 7 = 4,5

Conocida esta tabla pueden realizarse ya todos los clculos.

212 Muestreo estadstico. Conceptos y problemas resueltos

) = V ( x ) = 1 k ( x < X ) 2 = 1 (3 < 3,75)2 + (3,5 < 3,75) 2 = 0,5625 V (X j j k j 2

La varianza del estimador de la media tambin puede calcularse como:


2 2 ) = V (x ) = 1 < n S bs = (1 < f ) S bs = (1 < 1 ) 4,5 = 0,5625 V (X j n 2 4 N n

La varianza para el estimador del total ser:


) = V (Nx ) = N 2V ( x ) = N 2 (1 < f ) S bs = 8 2 u 0,5625 = 36 V (X j j n
2

El clculo de la varianza tambin puede realizarse a travs del valor del coeficiente de correlacin intramuestral como V ( x j ) =
k n

m2
n

(1 + (n < 1) l t ) . Tenemos:
k n ij

lw =

2 X ij < X X zj < X
j i<z

)(

) 2(X
=
j i<z

< X X zj < X

)(

N (n < 1)m 2

( N < 1)(n < 1)S 2

= <0,14285

Tendremos entonces:
2

7 4,5 m V (x j ) = (1 + ( n < 1) l t ) = 8 (1 + 3(<0,14285)) = 0,5625 n 4

Ahora surge el problema de estimar las varianzas. Para ello observamos en primer lugar que S2ws = 4,5 = S2, por lo que la precisin en muestreo aleatorio simple coincide con la precisin del muestreo sistemtico, y podremos utilizar la frmula del muestreo aleatorio simple para estimar varianzas. Por otra parte, el valor del coeficiente de correlacin intramuestral lt indica que la precisin del muestreo sistemtico es buena, ya que ste es muy bajo y adems es negativo. Al ser negativo vemos que no existe interrelacin dentro de las muestras, esto es, que las muestras tienden a ser heterogneas dentro de s, lo cual es muy conveniente en muestreo sistemtico a la vista de que la muestra ha de representar fielmente a toda una poblacin que se supone heterognea. Para estimar la varianza de la media podemos utilizar la frmula del muestreo aleatorio simple, ya que en este problema coincide en precisin con el sistemtico. Tendremos los siguientes resultados para cada una de las dos muestras:
2 1 1 2 2 2 2 (x ) = (1 < f ) u S1 = V 1 < (1 < 3) + (5 < 3) + (4 < 3) + (2 < 3) 1 n 2 3 2 1 1 2 2 2 2 (x ) = (1 < f ) u S2 = V 1 < (3 < 4,5) + (2 < 4,5) + (6 < 4,5) + (7 < 4,5) 2 n 2 3

] 4 = 0,41

] 4 = 0,71

La mejor muestra sistemtica resulta ser la primera, pues es la que presenta menor varianza. Tambin podemos tratar este problema desde el enfoque de la equivalencia entre muestreo estratificado y muestreo sistemtico.

Muestreo sistemtico

213

Consideramos ahora cada una de las 4 zonas (filas) como un estrato de 2 unidades. Tenemos entonces dividida la poblacin en 4 estratos de 2 unidades cada uno, de modo que la muestra sistemtica consta de una unidad por estrato, que de forma general no es elegida aleatoriamente dentro del mismo. Esta clasificacin de los elementos de la poblacin en 4 filas de 2 unidades cada una origina una tabla del anlisis de la varianza para la poblacin que puede calcularse a travs de Excel. Como estamos clasificando los datos en 4 filas (estratos), utilizaremos las variables M2 a M5, que recogen los valores de las cuatro filas. A continuacin elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del men Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-6. La Figura 5-7 presenta los resultados.

Figura 5-6

Figura 5-7

214 Muestreo estadstico. Conceptos y problemas resueltos

La tabla del anlisis de la varianza por estratos es entonces la siguiente:


Fuente de variacin Entre estratos Dentro de estratos Total Grados de libertad n <1= 4 <1= 3 N <n=8<4=4 N <1= 8 <1= 7 Sumas de cuadrados Cuadrados medios

(X
n i k j

2 = 10,5 / 3 = 3,5 < X ) = 10,5 S bst 2

(X
n k

(X
i j

i n

j k

ij

< X i ) = 21
2

2 S wst = 21 / 4 = 5,25

ij

< X j ) = 31,5

S 2 = 31,5 / 7 = 4,5

(X < X )
n i k j i

= k Xi < X = 2 (2 < 3,75)2 + (3,5 < 3,75)2 + (5 < 3,75)2 + (4,5 < 3,75)2 = 10,5
j 2

(X
n i k j

ij

< Xi = (1< 2)2 + (3 < 2)2 + (5 < 3,5)2 + (2 < 3,5)2 + (4 < 5)2 + (6 < 5)2 + (2 < 4,5)2 + (7 < 4,5)2 = 21

A partir de esta equivalencia entre muestreo estratificado y muestreo sistemtico podemos hallar la varianza del estimador de la media de la siguiente forma:
S2 1 5,25 V ( X ) = V ( x j ) = (1 < f ) wst = 1 < = 0,65625 n 2 4

Se observa que ahora la varianza es ligeramente superior al caso en que no se consideraba estratificacin. Ello es debido a que la seleccin de la unidad por estrato para la muestra no es aleatoria salvo en el primer estrato. Una medida de esa falta de aleatoriedad la proporciona el coeficiente de correlacin ltst, cuyo valor se calcula como:

ltst =

2 Xij < Xi X zj < X z


j i<z

)(

n(n <1)(k <1)S

2 wst

2 ((1< 2)(5 < 3,5) + (1< 2)(4 < 5) + ...+ (6 < 5)(7 < 4,5)) = <0,047 4.3.1.5,25

El valor de ltst es negativo y muy pequeo, lo que indica que la falta de aleatoriedad en la seleccin de una unidad por estrato no es muy elevada. Para calcular el valor correcto de la varianza del estimador de la media considerando la falta de aleatoriedad se utiliza la siguiente expresin en funcin de ltst:
) = V ( x ) = (1< f ) S wst (1+ (n <1)l ) = (1< 0,5) 5,25 (1< (4 <1)0,047) = 0,56 V(X st jst tst n 4
2

Se observa que ahora ya coincide la varianza con la calculada sin estratificar. Tambin podemos estimar la varianza a partir del muestreo estratificado, agrupando las 4 filas (estratos) de la poblacin en grupos de 2, y considerando cada dos filas como un estrato del que seleccionamos dos unidades para la muestra. Tendremos:

Muestreo sistemtico

215

3 Estrato 1 5 2 4 6 Estrato 2 2 7
2

(x ) = 1 < f V 1 n2 (x ) = 1 < f V 2 n2

(x
h n 2 h

n 2

h1

< xh2 ) = < xh2 ) =


2

1 < 0,5 (1 < 5) 2 + (4 < 2) 2 = 0,625 42

(x

h1

1 < 0,5 (3 < 2) 2 + (6 < 7) 2 = 0,0625 42

Por esta va la menor varianza la presenta la segunda muestra. La tabla del anlisis de la varianza en el caso de estratificacin es esencial en estos problemas, ya que proporciona prcticamente toda la informacin para realizar clculos.

5.3.

Una manzana de casas de una ciudad contiene 36 hogares numerados del 1 al 36. Los hogares con ingresos mensuales superiores a 1500 euros son los que tienen los nmeros 3, 5-7, 11-13, 15-16, 20- 22, 25-26, 28 y 30-34. 1) Se trata de estimar la proporcin de hogares con sueldo mensual superior a 1500 euros utilizando muestreo sistemtico. Comparar la precisin de una muestra sistemtica 1 en 4 con una muestra aleatoria simple del mismo tamao para estimar la proporcin de hogares con sueldo mensual superior a 1500 euros. Justificar la respuesta en funcin del valor del coeficiente de correlacin intramuestral y en funcin de la cuasivarianza intramuestral. 2) Hallar el tamao de muestra necesario para estimar la proporcin de viviendas en las que los ingresos mensuales son superiores a 1500 euros para un error de muestreo de 16 centsimas. Hallar ese mismo tamao para muestreo aleatorio simple y comentar el resultado. Si definimos una variable dicotmica A a la que asignamos el valor 1 para los hogares en que los ingresos mensuales superan los 1500 euros y el valor 0 para el resto de los hogares, y clasificamos los 36 hogares en 9 filas de 4 viviendas cada una (muestreo sistemtico 1 en 4) siguiendo el orden del enunciado del problema, tendremos la siguiente tabla:
0 1 0 1 0 1 1 0 0 1 0 0 0 1 1 1 1 1 1 1 0 0 0 1 0 0 1 1 1 0 1 1 1/ 4 3/ 4 1/ 2 3/ 4 1/ 4 1/ 2 3/ 4 3/ 4

0 1/ 2 0 1 1 5/9 5/9 5/9 5/9 5/9

Para calcular la varianza del estimador sistemtico de la proporcin hacemos:

216 Muestreo estadstico. Conceptos y problemas resueltos


5 5 2 5 5 2 5 5 2 5 5 2 ) = 1 V (P < + < + < + < = 0 4 9 9 9 9 9 9 9 9

Tambin podemos calcular la varianza del estimador de la proporcin como:


) = PQ < V (P 1 k 20 20 1 5 4 5 4 5 4 5 4 1< < + + + =0 Pj Q j = 36 k j =1 36 4 9 9 9 9 9 9 9 9

A continuacin, se construye la tabla del anlisis de la varianza para la poblacin (produccin total) utilizando Excel. Como estamos clasificando los datos en 4 grupos (columnas), utilizaremos una variable G, que clasificar los valores de A (ceros o unos) por grupos (por columnas). Introducimos los valores de G en columnas de la hoja de clculo de Excel y elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del men Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-8. La Figura 5-9 presenta los resultados.

Figura 5-9

Figura 5-10

Muestreo sistemtico

217

Por lo tanto, la tabla del anlisis de la varianza para la poblacin es la siguiente:


Grados de libertad k <1 = 4 <1 = 3 N < k = 36 < 4 = 32 N < 1 = 36 < 1 = 35 Cuadrados medios
2 S bs = 0/3= 0

Fuente Entre Dentro Total

Sumas de cuadrados

(x
n i k j n k i n i j k

<X
ij

=0
2

(X (X
j

< x j ) = 8,88 <X


j

2 S ws = 8,88 / 32 = 0,277

ij

) = 8,88

S 2 = 8,88 / 35 = 0,254

Conocida esta tabla pueden realizarse ya todos los clculos. Por ejemplo, la varianza del estimador de la proporcin tambin podra calcularse como:
2 2 S bs n S bs 1 0 ) = V P = ( ) V (P 1 < = 1 < f = (1 < ) = 0 j n 4 9 N n

( )

Del valor de la varianza puede deducirse el valor del coeficiente de correlacin intramuestral a travs de la frmula V ( x j ) =

m2
n

(1 + (n < 1) l t ) . Tendremos:

35 0 , 254 1 1 0 = 36 (1 + ( 9 < 1) l t ) l t = < = < = < 0 ,125 8 9 n <1

Estamos ante el caso de mxima precisin del muestreo sistemtico, ya que la varianza 1 es nula, o lo que es lo mismo, l t = < . n <1 Este hecho concuerda con los valores que toman S2 y S2ws. Concretamente S2 = 0,254 < 0,277, lo que indica que es ms preciso el muestreo sistemtico que el aleatorio simple. La varianza del estimador de la proporcin en el muestreo aleatorio simple es (1<1/4)*0,254/9 = 0,021. S2ws = Para resolver el segundo apartado del problema consideramos ahora cada una de las 9 zonas (filas) como un estrato de 4 unidades. Tenemos entonces dividida la poblacin en 9 estratos de 4 unidades cada uno, de modo que la muestra sistemtica consta de una unidad por estrato que de forma general no es elegida aleatoriamente dentro del mismo. Esta clasificacin de los elementos de la poblacin en 9 filas de 4 unidades cada una origina una tabla del anlisis de la varianza que se puede calcular con Excel. Como estamos clasificando los datos en 9 filas (estratos), utilizaremos las variables G5 a G13, que recogen los valores de las nueve filas. A continuacin elegimos Anlisis de la varianza de un factor en la opcin Anlisis de datos del men Herramientas, rellenando su pantalla de entrada como se indica en la Figura 5-11. La Figura 5-12 presenta los resultados.

218 Muestreo estadstico. Conceptos y problemas resueltos

Figura 5-11

Figura 5-12 El cuadro del anlisis de la varianza por estrato es entonces el siguiente:
Fuente de variacin Entre estratos Dentro de estratos Total Grados de libertad n <1 = 9 <1 = 8 N < n = 36 < 9 = 27 N < 1 = 36 < 1 = 35 Sumas de cuadrados Cuadrados medios S
2 bst

(X
n i k j

<X

= 1,388
2

= 1,388 / 8 = 0,1735

(X
n k

(X
i j

i n

j k

ij

< Xi

= 7,5

2 S wst = 7,5 / 27 = 0,277

ij

< X j = 8,888 S 2 = 8,888 / 35 = 0,254

Calculamos ahora el valor del coeficiente de correlacin ltst como sigue:


2 Xij < Xi X zj < X z
j i<z k n

ltst =

)(

n(n < 1)(k < 1)S

2 wst

3 1 1 3 1 2 1 (0 < )(1 < ) + (0 < )(0 < ) + ... + (1 < )(0 < ) = <0,125 9.8.3.0,277 4 4 4 2 4 2

Para calcular el tamao de muestra necesario para cometer un error de muestreo igual a 0,16 despejamos n en la expresin que define la varianza de la proporcin en funcin de ltst. Tenemos:

Muestreo sistemtico
2 Swst n 0,277 V (Pst ) = (1 < f ) (1 + (n <1)ltst ) 0,162 = (1 < ) (1 + (n <1)(<0,125 ) n = 5 n 36 n

219

Para calcular el tamao de muestra anterior en muestreo aleatorio simple despejamos n en la expresin que define la varianza de la proporcin en ese tipo de muestreo. Tenemos:

) = (1< f ) V (P st

S2 n

0,162 = (1<

n 0,254 ) n =8 36 n

Obviamente el tamao de muestra necesario para cometer el mismo error de muestreo es mayor en muestreo aleatorio simple que en muestreo sistemtico, ya que en este problema el muestreo sistemtico es ms preciso que el muestreo aleatorio simple.

5.4.

Un investigador desea determinar la calidad del azcar contenida en la sabia de los rboles de una finca, que se encuentran situados a lo largo de la misma de forma natural en 7 hileras. El nmero total de rboles es desconocido, por lo que no puede realizarse una muestra irrestricta aleatoria. Como procedimiento alternativo el investigador decide usar una muestra sistemtica de 1 en 7. En la tabla adjunta se encuentran los datos del contenido de azcar en la sabia de los rboles muestreados:
rbol muestreado 1 2 3 M 210 211 212 Contenido de azcar en la savia X 82 76 83 M 84 80 79
i

X2 6724 5776 6889 M 7056 6400 6241


2 i

X
i =1

212

= 17066

X
i =1

212

= 1486800

Estimar el contenido de azcar promedio en la sabia de los rboles de la finca estableciendo los errores absoluto y relativo de la estimacin. Realizar la estimacin mediante un intervalo de confianza al nivel del 5%. La estimacin de la media vendr dada por:

X = xj =

X
i =1

212

212

= 80,5

Para calcular el error absoluto de muestreo consideramos la estimacin de la varianza, que se basar en la frmula del muestreo aleatorio simple, ya que intuitivamente podemos suponer que la poblacin de rboles en la finca es aleatoria en cuanto al contenido de azcar en la sabia debido a que suponemos una distribucin natural de los mismos en la finca. Previamente necesitamos estimar la cuasivarianza mediante:

220 Muestreo estadstico. Conceptos y problemas resueltos


2

2 = x = S j

i =1

212

212 X < Xi i =1 212 < 1


2 i

212 = 535,48

Adems, al ser la muestra sistemtica 1 en 7 y n = 212 entonces N = nk = 212.7 =1484 rboles. La estimacin de la varianza del estimador de la media ser:
1 535,48 (X (x ) = (X V ) =V = 2,16 m ) = 1,47 1 < j 7 212

El error relativo de muestreo ser:


(x ) V j 1,47 1,47 v( X C )= = = = 0,0182 (1,82%) E(x j ) 80,5 X

El error relativo es bajo, por lo que la estimacin puede ser buena. Por otra parte, un intervalo de confianza para la media suponiendo normalidad en la poblacin ser:
h m X _ ( X ) = 80,5 1,96 u 1.47 = [77,6 83,4]

En caso de no poder suponer normalidad se toma el intervalo ms tosco dado por:


(X ) 1.47 m = 80,5 = [74, 87] X 0,05 _

El intervalo para no normalidad es ms ancho (peor) que en el caso de normalidad, pero no demasiado.

5.5.

Un hortelano tiene un huerto experimental con N = 1300 manzanos de una nueva variedad en estudio. El investigador desea estimar la produccin total (en quintales) de la huerta, con base en los manzanos de una muestra sistemtica de 1 en 10. La media y la varianza 2 = 0,48 quintales. muestrales para los rboles muestreados fueron x j = 3,52 quintales y S Utilizar estos datos para estimar la produccin total, y establecer un lmite para el error de estimacin. La estimacin de la produccin total estar dada por:
= Nx = 1300(3,52) = 4576 quintales X j

Para calcular el error absoluto de muestreo consideramos la estimacin de la varianza, que se basar en la frmula del muestreo aleatorio simple, ya que intuitivamente podemos suponer que la poblacin de manzanos en el huerto es aleatoria debido a que suponemos una distribucin natural de los mismos en el huerto. Adems, al ser la muestra sistemtica 1 en 10 y N = 1300 entonces N = nk 1300 = n.10 n = 130 manzanos rboles. La estimacin de la varianza del estimador de la media ser:

Muestreo sistemtico

221

130 0,48 (X ) = N 2V ( x ) = 1300 2 ) = 75 (X V = 5625 m 1 < j 1300 130

El error relativo de muestreo ser:


v( X ) = V ( X ) = 75 = 1,47 = 0,016 (1,6%) C 4576 80,5 X

El error relativo es bajo, por lo que la estimacin puede ser buena. Por otra parte, un intervalo de confianza al 95% para la produccin total suponiendo normalidad en la poblacin ser:
h m ) = 4576 2 u 75 = [4426 4726] (X X _

El lmite para el error de estimacin est dado por:


) = 150 (X 2m

5.6.

Una muestra sistemtica de 1 en 10 es obtenida de una lista de votantes registrados para estimar la proporcin de votantes que estn a favor de la emisin de bonos propuesta. Se utilizan diferentes puntos de inicio aleatorio para asegurar que los resultados de la muestra no se ven afectados por variacin peridica en la poblacin. Los resultados codificados de esta encuesta de eleccin previa se muestran en la tabla adjunta. Estimar p, la proporcin de los 5775 votantes registrados que estn a favor de la emisin de bonos propuesta ( N = 5775). Establecer un lmite para el error de estimacin.
Votante 4 10 16 Respuesta 1 0 1

. . .

5760 5766 5772

. . .

y
i =1

962

0 0 1
i

= 652

Al ser la muestra sistemtica 1 en 6 y N = 5775 entonces N = nk 5775 = n*6 E(n) = 962 donde E(n) significa parte entera de n. Por tanto, el tamao muestral es 962. Como n es grande y se han tomado varios puntos de inicio aleatorio en la extraccin de la muestra sistemtica, podemos estimar la proporcin proporcional mediante la proporcin muestral, y el error se estimar utilizando la frmula del muestreo aleatorio simple. Tenemos:

222 Muestreo estadstico. Conceptos y problemas resueltos


212 i =1

=P = P j

X
962

652 = 0,678 962

(1 < P ) 962 0,678(1 < 0,678) nP j j ) = 0,014 (P ) = V (P )= (X 1 = 0,000196 m = 1 < V < j 1 5775 962 < 1 < N n
El error relativo de muestreo cuando se asegura que el 67,8% de los votantes registrados favorece la emisin de bonos propuesta, ser:
v( P ) = V ( P ) = 0,014 = 1,47 = 0,0206 (2,06%) C 0,678 80,5 P

Por otra parte, un intervalo de confianza para la proporcin, suponiendo normalidad en la poblacin ser:
h m P _ ( P ) = 0,678 2 u 0,014

El lmite para el error de estimacin ser el radio del intervalo de confianza, o sea, 0,028 (2,8%).

5.7.

Un parque estatal cobra la admisin por automvil en lugar de por persona, y un funcionario del parque quiere estimar el nmero promedio de personas por automvil para un da concreto en particular durante el verano. El funcionario sabe por experiencia que entrarn al parque alrededor de 400 automviles y quiere muestrear 80 de ellos. Para obtener una estimacin de la varianza, utiliza el muestreo sistemtico replicado con 10 muestras de 8 automviles cada una. En la tabla siguiente se presentan los datos del nmero de personas por automvil (entre parntesis):
Punto de inicio aleatorio 2 (3) 5 (5) 7 (2) 13 (6) 26 (4) 31 (7) 35 (3) 40 (2) 45 (2) 46(6) Segundo elemento 52 (4) 55 (3) 57 (4) 63 (4) 76 (5) 81 (6) 85 (3) 90 (6) 95 (6) 96 (5) Tercer elemento 102 (5) 105 (4) 107 (6) 113 (6) 126 (7) 131 (4) 135 (2) 140 (2) 145 (3) 146 (4) Cuarto elemento 152 (3) 155 (2) 157 (2) 163 (7) 176 (4) 181 (4) 185 (3) 190 (5) 195 (6) 196 (6) Quinto elemento 202 (69 205 (4) 207 (3) 213 (2) 226 (2) 231 (3) 235 (6) 240 (5) 245 (4) 246 (3) Sexto elemento 252 (1) 255 (2) 257 (2) 263 (3) 276 (6) 281 (6) 285 (5) 290 (4) 295 (4) 296 (3) Sptimo elemento 302 (4) 305 (3) 307 (1) 313 (2) 326 (2) 331 (7) 335 (6) 340 (4) 345 (5) 346 (5)
yi Octavo elemento 352 (4) 3,75 355 (4) 3,38 357 (3) 2,88 363 (7) 4,62 376 (6) 4,5 381 (5) 5,25 385 (8) 4,5 390 (5) 4,12 395 (4) 4,25 396 (3) 4,38

Estimar el nmero promedio de personas por automvil y establezcer un lmite para el error de estimacin. Como tenemos varios arranques aleatorios, utilizaremos el mtodo de las muestras interpenetrantes.

Muestreo sistemtico

223

Podemos formar un estimador combinado de la media poblacional basado en las medias de las t muestras (cada media muestral es un estimador insesgado de la misma media poblacional) promediando las medias de las 10 muestras sistemticas (filas de la tabla del enunciado) de la siguiente forma:
xc = 1 t 1 x t = (3,75 + 3,38 + L + 4,38) = 4,16 t 1 10

El estimador insesgado de su varianza mediante la aplicacin del mtodo de las muestras interpenetrantes es:

(x ) = (1 < n / N ) V c

1 t 2 1 t 2 t 2 1 t 2 xi < txc2 = (1 < n / N) xi < xc = (1 < n / N) (xi < xc2 ) t(t < 1) i t(t < 1) i t(t < 1) i i

(x ) = (1< 80 / 400) V c

1 177410<10* 4,162 = 0,0365 10(9 <1)

(x ) = 2 0,0365 = 0,38 . El lmite para el error de estimacin al 95% es 2 V c

5.8.

Una empresa publicitaria est iniciando una campaa de promocin para un nuevo producto. La empresa quiere muestrear clientes potenciales en una pequea comunidad para determinar la aceptacin del producto. Para eliminar algo de los costos asociados con las entrevistas personales, el investigador decide seleccionar una muestra sistemtica de entre N = 5000 nombres listados en un registro de la comunidad y recolectar los datos mediante entrevistas por telfono. Determinar el tamao de muestra requerido para estimar la proporcin de personas que consideran <<aceptable>> el producto, con un lmite para el error de estimacin de magnitud 0,03 (esto es, 3%). Como el lmite para el error de la estimacin es 0,003, tenemos:
P = 0,03 V P = 0,000225 2 V

()

()

Entonces, el tamao de muestra requerido es:


n= Q 5000(0,5)(0.5) NP = = 909,240 5 910 4999(0,000225) + (0,5)(0,5) (P ) + P Q ( N < 1)V

La empresa debe entrevistar a 910 personas para determinar la aceptacin del producto, con un lmite para el error de estimacin del 3%. Se ha supuesto que es correcta la aproximacin del error del muestreo sistemtico por el error del muestreo aleatorio simple (poblacin grande de carcter tpicamente = 1 / 2 por desconocimiento de sus valores. =Q aleatorio) y se ha tomado P

224 Muestreo estadstico. Conceptos y problemas resueltos

EJERCICIOS PROPUESTOS
5.1.
Dada la poblacin siguiente:

ui Xi

u1 1

u2 3

u3 5

u4 2

u5 4

u6 6

u7 2

u8 7

u9 3

se desea obtener una muestra sistemtica de tamao 3 (1 en 3). Determinar el espacio muestral y las probabilidades asociadas a las muestras posibles para este tipo de muestreo. Calcular las varianzas de los estimadores insesgados del total y de la media. Estimar dichas varianzas y comparar la precisin de este tipo de muestreo con la del muestreo aleatorio simple. Seleccionar la muestra ms precisa.

5.2.

En un directorio de 13 casas de una calle las personas estn distribuidas hogar a hogar como sigue:

M M F F f f m m f f M F m f M F M F m m f M F f m M F f f m M F m f M F m M F m f M F f m M F f M F 1 2 3 4 5 6 7 8 9 10 11 12 13

M=varn adulto,

F=mujer adulta,

m=hijo varn,

f=hija

Se realiza muestreo sistemtico de una de cada 5 personas (muestreo 1 en 5), numerando los elementos de la poblacin por columnas hacia abajo y luego yendo a la parte superior de la siguiente columna (se empieza por la primera columna de la izquierda). Se pide lo siguiente: 1) Calcular el valor del coeficiente de correlacin ltst y hallar la varianza del estimador de la proporcin de varones adultos en la poblacin utilizando la relacin entre muestreo sistemtico y muestreo estratificado. 2) Qu muestra sistemtica es la mejor? Cul es la proporcin estimada de varones adultos en la poblacin?

5.3.

La administracin de una empresa de servicio pblico est interesada en la cantidad promedio de tiempo que llevan vencidas las cuentas atrasadas. Una muestra sistemtica ser extrada de una lista en orden alfabtico con N = 2500 cuentas de clientes que estn vencidas. En una encuesta similar realizada el ao anterior, la varianza muestral fue s2 = 100 das. Determinar el tamao de muestra requerido para estimar , la cantidad promedio de tiempo que tienen de estar vencidas las cuentas de la empresa de servicio pblico, con un lmite para el error de estimacin de 2 das.

CAPTULO MUESTREO POR MTODOS INDIRECTOS. RAZN, REGRESIN Y DIFERENCIA

OBJETIVOS
1. Presentar el concepto de estimacin no lineal. 2. Presentar el concepto de estimacin por mtodos indirectos. 3. Analizar el estimador de razn, su sesgo y su varianza. 4. Estimar el sesgo y la varianza del estimador por razn. 5. Analizar los estimadores y sus errores en muestreo estratificado con reposicin. 6. Comprender la formacin de estimadores de magnitudes poblacionales basados en la razn. 7. Estudiar los errores y su estimacin para estimadores indirectos basados en la razn. 8. Analizar el estimador de razn, su sesgo y su varianza. 9. Obtener la varianza mnima para el estimador de regresin y su estimacin. 10. Comparar la estimacin indirecta por regresin con otros tipos de muestreo. 11. Analizar el estimador por diferencia, sesgo, varianza y sus estimaciones. 12. Comprender los mtodos indirectos en muestreo estratificado. 13. Analizar la estimacin por razn en muestreo estratificado. 14. Analizar la estimacin por regresin en muestreo estratificado. 15. Diferenciar entre estimadores separados y estimadores combinados. 16. Comparar las precisiones de los mtodos de estimacin indirecta con estratificacin.

226 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Estimadores no lineales. 2. Muestreo por mtodos indirectos. El estimador de razn. 3. Estimaciones de los parmetros poblacionales basadas en la razn y errores. 4. Estimaciones por regresin y errores. 5. Estimaciones por diferencia y errores. 6. Estimadores de razn en el muestreo estratificado. 7. Estimadores de regresin en el muestreo estratificado. 8. Problemas resueltos. 9. Ejercicios propuestos.

Muestreo por mtodos indirectos. Razn, regresin y diferencia

227

ESTIMADORES NO LINEALES
Al estimar un parmetro poblacional la dificultad principal suele estar en el clculo del error de muestreo (raz cuadrada de la varianza del estimador). Por esta razn, son muchos los procedimientos analizados para la estimacin de varianzas. Segn Wotter (1985), podemos clasificar las situaciones que se pueden presentar atendiendo a la naturaleza del parmetro a estimar (parmetros lineales o no lineales) y al diseo muestral utilizado (diseos simples o complejos). Se pueden estimar parmetros lineales en diseos simples, parmetros no lineales en diseos simples, parmetros lineales en diseos complejos o parmetros no lineales en diseos complejos. Aunque la mayor parte de la teora bsica de muestreo se basa en el clculo de estimadores de parmetros lineales en diseos simples, tambin se han desarrollado procedimientos para aproximacin lineal de estimadores que estn basados en un desarrollo en serie de Taylor para obtener una aproximacin lineal del estimador y as poder aplicar posteriormente toda la teora desarrollada para estimadores lineales. Otras tcnicas, como los mtodos de replicacin de muestras, se basan en la generacin de diversas muestras, todas bajo el mismo diseo muestral, con el fin de obtener informacin acerca de la distribucin del estimador. Adems existen otras tcnicas, como los mtodos de exploracin intensiva de una muestra, que consisten en la generacin de muestras a partir de la muestra inicial, obtenida mediante un determinado diseo, usando tcnicas muy variadas. Estimadores no lineales. Mtodo general de linealizacin para la estimacin de varianzas Supongamos un parmetro poblacional e del cual hemos obtenido un estimador no lineal

= f ( x ,..., x ) = e ,...,e , de ,...,e , es decir, e funcin de una serie de estimadores e 1 k 1 n 1 k modo que si se calculan las varianzas de los nuevos estimadores habremos conseguido resolver nuestro problema. ,...,e son estimadores insesgados de e ,...,e respectivamente Supongamos que e 1 k 1 k

e = f ( x1 ,..., x n ) basado en la muestra ( x1 ,..., x n ) . Se trata de expresar dicho estimador como

en un entorno del punto (e 1 ,...,e k ) es el siguiente:

,...,e y que los valores tericos cumplen e = (e 1 ,...,e k ) . El desarrollo de Taylor de e 1 k

e1 ,...,ek = (e 1 ,...,e k ) + d e1 ,...,ek

)(

e1 ,...,e k )

+ Tn

donde Tn es el trmino complementario o resto, el cual puede ser despreciado o no dependiendo de las condiciones del entorno. Para un entorno suficientemente pequeo supongamos que Tn s es despreciable, resultando:

e < e 5 d e1 ,...,ek

)(

e1 ,...,e k )

k ,...,e , e 1 k = ,e r r =1

(e1 ,...,e k )

(e

<er

228 Muestreo estadstico. Conceptos y problemas resueltos

Elevando ambos trminos de esta igualdad al cuadrado y tomando esperanzas , es decir, obtenemos una expresin aproximada para la varianza de e

= Ee <e Ve

() (

k k , e ,...,e 1 k < e , e 1 ,...,e k = E e el < e l r r r =1 l =1 ,e r ,e l (e1 ,...,e k ) (e1 ,...,e k ) k k ,...,e ,...,e , e , e k k 1 1 ,e = Cov e r l ,e r ,e l r =1 l =1 (e1 ,...,e k ) (e1 ,...,e k )

k , e ,...,e 1 k 5 E r =1 ,e r

<e e r r (e1 ,...,e k )

) (
)

Aplicacin al cociente de estimadores Sea R =

_ =_ un parmetro poblacional y R un estimador del mismo. ` `

) y R = (_ , ` ) , por lo que estamos en condiciones = (_ , ` Observamos que R de aplicar el mtodo general de linealizacin de varianzas previamente explicado. Haciendo ) en el punto (_ , ` ) resulta: , ` un desarrollo en serie de Taylor de la funcin (_

, ` < R 5 , _ R ,_

( )

(_ , ` )

, (_ , ` ) <_)+ (_

,`

(_ , ` )

(` < ` )
2

y elevando al cuadrado y tomando esperanzas tenemos:

=ER <R V R
2

() (

, _ , ` 5 E ,_
2

( )

, _ , ` <_)+ ( _ ,` (_ , ` )

( ) < ` ) ( ` (_ , ` )

,R ,R ,R ,R + 2 )+ , ` ( = V _ V ` Cov _ ,_ ,_ ,` ,` (_ , ` ) (_ , ` ) (_ , ` ) (_ , ` )

()

( )

_ _ +2 1 , ` )+ V ` Cov _ < 2 = 2 V (_ < 2 ` ` ` ` 1 < 2 RCov _ ) + R 2V ` , ` = 2 V (_ 1

()

( )

()

( )]

) es: = (_ , ` Otra expresin alternativa para la varianza de R

) V ` , ` Cov _ 5 R 2 V (_ + 2 <2 V R 2 _` ` _

()

()

( )

Muestreo por mtodos indirectos. Razn, regresin y diferencia

229

MUESTREO POR MTODOS INDIRECTOS. EL ESTIMADOR DE RAZN


Los mtodos indirectos utilizan la informacin conocida relativa a una variable auxiliar Y (variable de apoyo) correlacionada con la variable en estudio X para conseguir estimaciones ms precisas para X que las calculadas nicamente a partir de la muestra de la variable que se estudia. Entre los mtodos clsicos de estimacin indirecta ms utilizados se encuentran el mtodo de estimacin por razn (basado en la razn entre X e Y), el mtodo de estimacin por regresin (basado en la regresin entre X e Y) y el mtodo de estimacin por diferencia (basado en la diferencia entre X e Y). Estos tres mtodos sern desarrollados a lo largo de este captulo. La estimacin indirecta constituye el complemento de la estimacin directa. No se trata por s solo de un mtodo eficiente de estimacin, pero junto con la estimacin directa desarrolla casi totalmente la informacin muestral. Los mtodos de estimacin indirecta aprovechan la informacin de variables auxiliares correlacionadas con la variable objeto de estudio con el fin de conseguir una ganancia en precisin de los estimadores. Sea X la variable objetivo y supongamos que se conoce Y =

Y
i =1

, donde

( X i , Yi ) se corresponden con los pares de valores de las variables X e Y respectivamente,


observados en la unidad i-sima de la poblacin o de la muestra. Nuestro objetivo es obtener un estimador para X que sea ms preciso que el estimador directo basado nicamente en la muestra. La expresin general de los estimadores indirectos es la siguiente:
= f X + b f (Y ) < f Y f X G 0

( ) ( ) (

( ))

eY el estimador indirecto de X , X los estimadores directos siendo f una funcin, X G


de X e Y , respectivamente, y b0 un coeficiente de correccin que, dependiendo de su valor, nos dar los diferentes tipos de estimadores indirectos. Como caso particular =X +b Y <Y . supongamos f ( x) = x . Entonces X G 0

Los casos ms frecuentes de estimadores indirectos son los siguientes:

=X , es decir, el estimador obtenido es el directo. 1. Si b0 = 0 , se tiene X G


=X + Y <Y , denominado estimador de la diferencia o 2. Si b0 = 1 , entonces X G diferencial.

3. Si b0 =

X , se obtiene el estimador de razn. =R Y


=X + X Y <Y = XY=R Y = X X G R Y Y

4. Si b0 = b , se obtiene el estimador de regresin.


=X + bY <Y =X X G rg

230 Muestreo estadstico. Conceptos y problemas resueltos

Supongamos una poblacin formada por N unidades, { U 1 , ..., U N } , y nos fijamos en dos caractersticas ( X , Y ) para cada unidad, siendo X la variable objeto de estudio e Y una variable auxiliar correlacionada con X . Llamaremos razn a R = viene dado por la expresin:

X y su estimador Y

= R

x y
i =1 i =1 n

x X = y Y

A partir de la razn podemos tambin estimar totales y medias mediante:

=R Y X R =R Y X R
Estos estimadores no son insesgados pero tienen varianza muy pequea y otras propiedades que los hacen deseables. Sin embargo, es preciso conocer Y o Y para poder calcularlos.

A N ( R, V ( R )) es consistente, pero en general es sesgado. Para muestras grandes, R R , aunque bajo y el sesgo es despreciable. No se conoce la expresin exacta de la varianza de R
ciertas condiciones se puede obtener una expresin aproximada de la misma. Podemos e y del siguiente modo: expresar el sesgo en funcin del coeficiente de correlacin entre R
lm R m y ) = < Cov( R, y ) = < B( R Y Y

) B( R

mR

es una medida del sesgo por unidad de desviacin tpica, es decir, una medida

relativa del sesgo respecto del error de muestreo. Adems, si

) B( R

mR

es del orden del 10%,

entonces el sesgo puede ser considerado despreciable en relacin al error estndar.

$ )=0 R $ e y son variables incorreladas en el muestreo, con lo Se cumple que B( R que ya tenemos la primera de las condiciones para la insesgadez del estimador de la razn . Adems se cumple que:

$ ) = < l $ m $ Cv ( y ) B( R ( R,y ) R

$) B( R

mR $

= l( R $ , y ) u Cv ( y ) ) Cv ( y )

con lo que el sesgo relativo (mdulo del cociente entre el sesgo del estimador de la razn y su desviacin tpica) est acotado por el coeficiente de variacin de y .

Muestreo por mtodos indirectos. Razn, regresin y diferencia

231

Entonces, para que el sesgo del estimador de la razn sea despreciable bastar con que el coeficiente de variacin de la media muestral de la variable auxiliar sea menor que 1/10, ya que en este caso:

$) B( R

mR $

) Cv ( y ) <

1 10

Se observa que el sesgo relativo es tanto menor cuanto menor sea Cv( y ). Adems, para intentar eliminar la influencia del sesgo se tomarn tamaos de muestra tales que el sesgo sea despreciable, es decir, tamaos de muestra tales que Cv( y ) < 1/10. Para hallar este tamao de muestra en el muestreo sin reposicin operamos como se indica a continuacin:
2 2 n SY SY 1 < 100 N 2 N n V ( y) 100 NSY 1 m( y) y2 Cv ( y ) = = = < n> = 2 2 10 E( y) Y Y Ny 2 + 100SY SY N + 100 2 y

Para hallar el tamao de muestra para el que el sesgo es despreciable en el muestreo con reposicin operamos como se indica a continuacin:

Cv ( y ) =

m( y)
E( y)

V ( y) mY2 100mY2 1 n = < n> = 100 Y Y 10 Y2 Y2

mY2

La segunda condicin de insesgadez del estimador de la razn es que si la recta de regresin de la variable auxiliar Y sobre la variable en estudio X (o la de X sobre Y) pasa $ es insesgado para R. por el origen de coordenadas entonces el estimador de la razn R

Clculo aproximado del sesgo del estimador de razn y su estimacin


El sesgo del estimador de razn puede aproximarse como sigue: Muestreo sin reposicin
) = (1 < f ) (RS 2 < S ) B( R Y XY nY 2

Muestreo con reposicin


) = B( R 1 (Rm Y2 < m XY ) nY 2

Estimacin del sesgo del estimador de la razn


La expresin obtenida para el sesgo del estimador de la razn va a permitir se estimacin a partir de los valores muestrales:

232 Muestreo estadstico. Conceptos y problemas resueltos

Muestreo sin reposicin Como en muestreo sin reposicin las cuasivarianzas poblacionales se estiman insesgadamente por cuasivarianzas muestrales, tenemos:

$ ) = (1 < f ) ( RS $ $2 < S $ ) $ (R B Y XY nY 2
Muestreo con reposicin Como en muestreo con reposicin las varianzas poblacionales se estiman insesgadamente por cuasivarianzas muestrales, tenemos:

2 < S (R ) = 1 R S B Y XY 2 nY

Varianza aproximada del estimador de la razn


Muestreo sin reposicin
N N N = 1 < f u (S 2 + R 2 S 2 < 2 RS ) = 1 < f V R u X i2 + R 2 Yi 2 < 2 R X i Yi x y xy 2 2 Y n Y n(N < 1) i i i

()

Muestreo con reposicin


= 1 u (m 2 + R 2m 2 < 2 Rm ) = 1 V R x y xy Y 2n Y 2 nN

()

N N N u X i2 + R 2 Yi 2 < 2 R X i Yi i i i

Estimacin de la varianza del estimador de la razn


Muestreo sin reposicin Utilizaremos que las cuasivarianzas muestrales estiman insesgadamente las cuasivarianzas $ 2 estimador insesgado de S2x, S $ 2 estimador insesgado de S2y y S $ poblacionales ( S x Yx XY estimador insesgado de Sxy). A su vez, utilizaremos el estimador reciente obtenido para la razn R. Tenemos:
n n n 2 + R 2 < 2R = 1< f u X 2 + R R = 1< f u S 2S S 2 Y 2 < 2R X Y V x y xy i i i i Y 2 n(n < 1) Y 2n i i i

()

Muestreo con reposicin Utilizaremos el hecho de que las cuasivarianzas muestrales estiman insesgadamente las $ 2 estimador insesgado de m2x, S $ 2 estimador insesgado de m2y y varianzas poblacionales ( S x Yx

$ estimador insesgado de mxy). A su vez utilizaremos el estimador reciente obtenido para S XY


n n 1 n 2 2 + R 2 < 2R = R = 1 uS 2S S 2 Y 2 < 2R X Y V X R u + x y xy i i i i Y 2n Y 2 n(n < 1) i i i

la razn R. Tenemos:

()

Muestreo por mtodos indirectos. Razn, regresin y diferencia

233

ESTIMACIONES DE LOS PARMETROS POBLACIONALES BASADAS EN LA RAZN Y ERRORES


Podemos utilizar el estimador de la razn para realizar estimaciones de los parmetros poblacionales tpicos como sigue:
=x = xY =R = AX P = R = PX P = R P , A A = xY = xY =R Y , X Y , P X R R R RX Y Y RX Y Y y y y P A Y Y

Las varianzas pueden calcularse como sigue: Muestreo sin reposicin


2 2 ) = V (R Y ) = Y 2V ( R ) = N 2 1< f Sx + R2S y < 2RS xy V (X R

) = V (R Y ) = Y 2V ( R ) = 1 < f S 2 + R 2 S 2 < 2 RS V (X x y xy R n

Muestreo con reposicin


2 ) =V(R Y) =Y 2V(R ) = N (m 2 + R2m 2 < 2Rm ) V(X x y xy R

Y ) = Y 2V(R ) = 1 (m 2 + R 2m 2 < 2Rm ) V(X R ) =V(R x y xy


n
Las estimaciones de las varianzas pueden calcularse como sigue: Muestreo sin reposicin
(X ) = N2 V R
n n n 1< f 2 2 2 =N 2 1< f X 2 + R S 2 S x + R S y < 2R Yi 2 < 2 R X i Yi xy i n n ( n < 1) i i i

n n n 1< f 2 2 2 = 1< f X 2 + R S (X 2 Y 2 < 2R XY S + R S < 2 R V ) = x y xy R i i i i n n(n < 1) i i i

Muestreo con reposicin

$( X $ )= N V R

( S$

2 x

$ 2S $ 2 < 2 RS $$ = +R y xy

N2 n ( n < 1) 1 n(n < 1)

X
i n i 2 i

2 i

2 +R

Y
i i 2

< 2R

X Y
i i i

$ )= 1 $2 $ 2 $2 $( X $$ = V S x + R S y < 2 RS R xy

( n

2 +R

Y
i

< 2R

X Y
i i i

234 Muestreo estadstico. Conceptos y problemas resueltos

ESTIMACIONES POR REGRESIN Y ERRORES


Supongamos ( xi , y i ) i = 1,..., N pares de valores situados sobre una recta que no pasa por el origen, es decir, xi = a + by i con a & 0 . Entonces, para los valores muestrales y poblacionales se cumple, respectivamente x = a + by y X = a + bY por lo que x < X = b y < Y , o lo que es lo mismo, X = x < b y < Y . Se tiene: Si y = Y , entonces X = x y V ( x ) = 0 Si y & Y , entonces X & x , siendo b y < Y el ajuste.

Este razonamiento sugiere intentar una ganancia en precisin cuando la relacin entre xi e y i sea lineal sin pasar por el origen, utilizando el estimador lineal de regresin para la media:

= x + b(Y < y ) X rg

Como casos particulares del estimador de regresin se tienen: 1.

=x expansin X rg
y

Si b = 0 , el estimador de regresin coincide con el estimador directo o de

2.

=R Y = X = x , se obtiene el estimador de razn X Si b = R rg R


rg

3.

( Si b = 1 se obtiene el estimador de la diferencia (X

) )

= x + (Y < y )

Tenemos:
bo = 0 x rg = x (estimador simple) x rg = x + bo ( Y < y ) b = x x = x + x (Y < y ) = x + x Y < x y = x Y = X (razn ) o rg R y y y y y b = 1x = ( x < y ) + Y (estimador por diferencia ) rg o

Anlogamente, se puede definir el estimador de regresin para el total poblacional como

=X + b Y <Y X rg

,Y los estimadores directos de X , Y respectivamente. siendo X


Podemos resumir las estimaciones por regresin como sigue:
= NP = Nx , P =P +b P <P y A x rg = x + bo (Y < y ) , X rg rg rg X o Y Y rg rg

Muestreo por mtodos indirectos. Razn, regresin y diferencia

235

Sesgo del estimador de regresin El estimador de regresin es en general sesgado salvo que los puntos (Xi , Yi ) con i = 1,2, .... ,N, donde Yi representa la variable auxiliar correlacionada con la variable en estudio Xi, estuviesen situados sobre una lnea recta que no pasa por el origen de ecuacin Xi = a + b Yi . Otro caso de insesgadez del estimador de regresin es cuando b = bo = constante.

Varianzas y estimacin de varianzas


Las varianzas y sus estimaciones toman los siguientes valores: Muestreo sin reposicin
V (xrg ) =

1< f 2 (S x + bo2 S y2 < 2bo S xy ) , V (x rg ) = 1 < f S x2 + bo2 S y2 < 2bo S xy n n

)
)

2 2 2 + b2S 2 < 2b S X = N (1 < f ) S = N (1 < f ) (S 2 + b2 S 2 < 2b S ) , V V X rg x o y o xy rg x o y o xy n n

( )

( )

2 2 (1 < l (x ) = 1 < f S 2 (1 < l X = N (1 < f ) S 2 ), V 2) V rg x min rg x min n n

( )

Muestreo con reposicin


V (xrg ) =

1 2 2) (m x + bo2m y2 < 2bom xy ), V (x rg ) = 1 S x2 + bo2 S y2 < 2bo S xy , Vmin (x rg ) = 1 S x2 (1 < l n n n

2 2 N2 2 2 + b2 S 2 = N (m 2 + b 2m 2 < 2b m ) , V X =N S V X 2) Sx (1 < l rg x o y o xy rg x o y < 2bo S xy , Vmin X rg = n n n

( )

( )

( )

Hasta aqu hemos considerado el caso en que b0 es constante. Sin embargo, cuando se desconoce b0 o es variable, suelen utilizarse los resultados anteriores, estimando b0 mediante la expresin:
=` = S XY = b 0 2 S Y

(X
i n i

< x )(Yi < y )


i

(Y

< y)

Este resutado obtenido es aplicable para muestras grandes.

Comparacin con otros tipos de muestreo


Muestreo sin reposicin Para comparar la precisin de la estimacin por regresin con la de otros tipos de muestreo utilizamos el estimador de la media y las expresiones de su varianza en los distintos tipos de muestreo. Tenemos:

236 Muestreo estadstico. Conceptos y problemas resueltos

$ = V ( x ) = 1< f S 2 V X x n $ = 1 < f S 2 + R 2 S 2 < 2 RS S u l V X R x y x y xy n $ = V x = 1< f S 2 1< l 2 Vmin X rg min rg x xy n

( ) ( ) ( )

( )

igual al caso l xy = 0 , es decir, al caso de correlacin nula entre X e Y. Por lo tanto, cuando la variable auxiliar y la variable en estudio estn incorreladas no se gana en precisin por considerar el mtodo indirecto de estimacin por regresin respecto de considerar el muestreo aleatorio simple. En el resto de los casos la estimacin indirecta por regresin supera en precisin a la estimacin aleatoria simple. Por otra parte:

2 Es evidente que Vmin x rg ) V ( x ) , ya que 1 < l xy ) 1, correspondiendo el signo

( )

Vmin xrg < V ( x R ) V ( x R ) < Vmin xrg * 0

( )

( )

1< f 2 1< f 2 2 S x (1 < l 2 xy ) * 0 (Sx + R2 S y < 2 RS x S y l xy ) < n n 1< f 1< f 2 2 RS y < l xy S x R2 Sy < 2 RS x S y l xy + S x2 l xy *0 n n

*0

La desigualdad es siempre cierta, y se produce la iguladad si:

RS y < l xy S x = 0 R = l

Sx =` Sy

es decir, la igualdad de precisiones en la estimacin por razn y por regresin se produce en el caso en que la recta de regresin pase por el origen (si R = `, la ordenada en el origen de la recta de regresin de X sobre Y, que en el caso de varianza mnima tiene de ecuacin X=`Y+ X - `Y , valdr X - `Y = X - RY = X - X = 0). En cualquier otro caso, la estimacin por regresin es ms precisa que la estimacin por razn. Muestreo con reposicin Para el caso de muestreo con reposicin tenemos:

$ = V ( x) = 1 m 2 V X n x $ = 1 m 2 + R 2m 2 < 2 Rm m u l V X R y x y xy n x $ = V x = 1 m 2 1< l 2 Vmin X rg min rg xy n x

( ) ( ) ( ( ) ( )

Muestreo por mtodos indirectos. Razn, regresin y diferencia

237

igual al caso l xy = 0 , es decir, al caso de correlacin nula entre X e Y. Por lo tanto, cuando la variable auxiliar y la variable en estudio estn incorreladas no se gana en precisin por considerar el mtodo indirecto de estimacin por regresin respecto de considerar el muestreo aleatorio simple. En el resto de los casos la estimacin indirecta por regresin supera en precisin a la estimacin aleatoria simple. Por otra parte:

2 Es evidente que Vmin x rg ) V ( x ) , ya que 1 < l xy ) 1, correspondiendo el signo

( )

Vmin xrg < V ( x R ) Vmin ( x R ) < V xrg * 0

( )

( )

1 2 1 (m x + R 2m y2 < 2 Rm xm y l xy ) < m x2 (1 < l 2 xy ) * 0 n n 1 2 2 1 2 R m y < 2 Rm xm y l xy + m x2 l xy * 0 Rm y < l xym x n n

*0

La desigualdad es siempre cierta, y se produce la igualdad si:

Rm y < l xym x = 0 R = l

S mx =l x =` Sy my

es decir, la igualdad de precisiones en la estimacin por razn y por regresin se produce en el caso en que la recta de regresin pase por el origen (si R = `, la ordenada en el origen de la recta de regresin de X sobre Y, que en el caso de varianza mnima tiene de ecuacin X = `Y + X < `Y , valdr X < `Y = X < RY = X < X =0). En cualquier otro caso la estimacin por regresin es ms precisa que la estimacin por razn.

ESTIMACIONES POR DIFERENCIA Y ERRORES


Dentro de los denominados mtodos indirectos de estimacin suele considerarse la estimacin por diferencia, que se utiliza en caso de que la recta de regresin que ajusta los puntos (Xi, Yi) tiene como pendiente la unidad. Por otra parte, ya vimos al estudiar la estimacin por regresin que el mtodo de estimacin por diferencia era un caso particular suyo (caso en que b = 1). Los estimadores de la media y el total basados en el estimador por = x < y pueden expresarse como sigue: diferencia D
= x < y +Y = D +Y X = N (x < y) + Y = D + Y = ND +Y X T

Las varianzas y sus estimaciones para los estimadores de la media y el total basados en la diferencia, coinciden con las varianzas y sus estimaciones de los propios estimadores diferencia. Para muestreo sin reposicin tenemos:
) = V (D + Y ) = V (D ) = 1 < f S 2 + S 2 < 2S V (X x y xy

( Y es una constante)

238 Muestreo estadstico. Conceptos y problemas resueltos

) = V (D + Y ) = V (D ) = N2 V (X T T

1< f 2 2 Sx + S y < 2 S xy (Y es una constante) n

2 + S 2 < 2S , V 2 + S 2 < 2S (X (X ) =V (D ) = N 2 1< f S D = 1< f S V )=V x y xy T x y xy n n

()

Para muestreo con reposicin tenemos:

) = 1 m 2 + m 2 < 2m V (X x y xy n ) =V 2 + S 2 < 2S (X D =1 S V x y xy n

( ) (

) = N 2 1 m 2 + m 2 < 2m V (X x y xy n 2 + S 2 < 2S (X ) =V (D ) = N2 1 S V T x y xy n

ESTIMADORES DE RAZN EN EL MUESTREO ESTRATIFICADO


Existen dos formas de plantear un estimador de razn para el total X , en el caso de muestreo estratificado. En la primera de ellas se obtiene un estimador de razn para cada el total de cada estrato y se suman todos ellos. El estimador obtenido se denomina estimador separado de razn. La principal ventaja de este estimador es que permite que la razn de X a Y vare de un estrato a otro. Sin embargo, necesitamos conocer el total de la variable auxiliar, Yh , en cada estrato por separado. En la segunda de ellas se obtiene una nica razn con los totales de X e Y estimados mediante muestreo estratificado, es decir,

X st , y se multiplica este cociente por el total de la Y


st

variable auxiliar Y , que se supone conocido. El estimador obtenido se denomina estimador combinado de razn. Para construir este estimador no es preciso conocer el total de la variable auxiliar en cada estrato; basta conocer el total de la poblacin. sta es una ventaja con respecto al estimador separado de razn. Sin embargo, el estimador combinado supone, implcitamente, que la razn permanece constante de un estrato a otro.
4.2.1 Estimador separado de razn

Estimador de razn simple o separado (para el total poblacional)


Se define el estimador separado de razn para el total poblacional X en un muestreo estratificado como:

=X = R Y = xh Y X h RS Rh h h h =1 y h h =1 h =1
L L L

Se observa que es la suma de los estimadores de razn para el total en los diferentes h = 1, ..., L . estratos. En general este estimador es sesgado, por serlo R h Sesgo del estimador de razn simple o separado y su estimacin Muestreo sin reposicin
L L L L ) = E( X ) < X = E ( R Y ) < X = E ( R )Y < X h Y = B( X RS RS h h h h h h h h h h Yh

E(R h

h )Yh < Rh Yh = ( E ( Rh ) < Rh )Yh = B ( Rh )Yh 14 24 3 h h h ) B(R


h

Muestreo por mtodos indirectos. Razn, regresin y diferencia

239

Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados por los Yh. Para muestreo sin reposicin la expresin del sesgo ser:
2 L L L Nh (1 < f h ) 2 ) = Y B( R ) = Y (1 < f h ) R S 2 < S = < S XYh B( X Rh S Yh RS h h h h Yh XYh 2 n Y n Y h h h h h h h {

2 Yh2 N h

(X )= que puede estimarse como: B RS


Muestreo con reposicin

2 Nh (1 < f ) 2 nY h R h S Yh < S XYh h h h L

Para muestreo con reposicin la expresin del sesgo ser:


L L L N h2 1 2 2 ) = Y B( R ) = Y ( ) (Rhm Yh m < m = < m XYh ) B( X R h Yh XYh RS h h h 2 nh Yh h h h nh Yh {
2 Yh2 N h

2 L 2 (X ) = Nh R S que puede estimarse como: B h Yh < S XYh RS h nh Yh

Varianza del estimador de razn simple o separado y su estimacin Muestreo sin reposicin El valor de la varianza de este estimador para muestreo sin reposicin ser:
L L L ) = V (R u Y ) = Y 2uV ( R ) = Y 2 u 1 < f h (S 2 + R 2 S 2 < 2 R S ) = V (X RS h h h h h xh h yh h xyh 2 h ? Yh n h h h
2 2 Nh Yh

N N L N h2 (1 < f h ) N N h2 (1 < f h ) 2 2 2 2 2 2 ( ) + < = + < 2 X R Y R 2 S R S R S n n ( N < 1) xh h yh h xyh hi h hi h X hi Yhi i i i h h h h h L


h h h

La estimacin de la varianza para muestreo sin reposicin ser:


2 L 2 + R 2 < 2R (X ) = N h (1 < f h ) S 2S S V RS xh h yh h xyh = n h h 2 n n n L N (1 < f h ) 2 2 Y 2 < 2R X Y = h + X R hi h hi h hi hi i i h n h (nh < 1) i
h h h

Muestreo con reposicin El valor de la varianza del estimador separado del total para muestreo con reposicin ser:

240 Muestreo estadstico. Conceptos y problemas resueltos

) = V (R u Y ) = Y 2uV ( R ) = Y 2 u 1 (m 2 + R 2m 2 < 2 R m ) = V (X RS h h h h h xh h yh h xyh 2 h h h ? Yh n h


L L L
2 2 Nh Yh

N N L N h2 2 N h2 N 2 2 2 2 2 ( ) R R X R Y R m m 2 m 2 + < = + < n xh h yh n ( N < 1) h xyh hi h hi h X hi Yhi i i i h h h h h L


h h h

La estimacin de la varianza para muestreo con reposicin ser:


2 2 nh nh L L nh 2 2 2 $( X $ ) = Nh S $2 + R $ 2S $ 2 < 2R $ S $ = Nh $ $ X R Y R V + < 2 hi RS xh h yh h xyh h hi h X hi Yhi i i h nh (nh < 1) i h nh

Estimador de razn simple o separado (para la media poblacional)


Se consideran estimaciones para la media basadas en la razn en cada estrato definidas como

$ = xh u Y = R $ u Y . Como en muestreo estratificado la estimacin del total se forma X Rh h h yh h $ $ W X


h =1 h L h

sumando las estimaciones de las medias en cada estrato ponderadas por los W h =Nh/N ( Xst = ), podemos definir el estimador simple o separado de la media como:

$ = W X $ uY X h $ Rh = Wh R RS h h h h
Este estimador para la media puede expresarse como:
L L L L $ $ = W X $ = WR $ uY = Nh R $ u Yh = 1 R $ Y = X RS X RS h Rh h h h h Nh N h h h N h h h N

Luego todas las frmulas para el estimador de la media pueden obtenerse a partir de las frmulas correspondientes ya vistas para el estimador del total. Muestreo sin reposicin El valor de la varianza de este estimador para muestreo sin reposicin ser:
L N 2 (1 < f h ) 2 $ ) = 1 V(X 2 $ ) = h < 2 R h S xyh = V(X S xh + R h2 S yh RS RS 2 n N2 N h h 1 2 3 Wh2

Nh Nh Wh2 (1 < f h ) N h 2 2 2 X hi + R h Yhi < 2 R h X hi Yhi i i h h ( N h < 1) i L

La estimacin de la varianza para muestreo sin reposicin ser:


L W h2 (1 < f h ) 2 )= 2 < 2R (X 2S S V S xh + R RS h yh h xyh = n h h n n L W 2 (1 < f h ) n 2 2 Y 2 < 2R X Y X R + = h hi h hi h hi hi i i h n h ( n h < 1) i
h h h

Muestreo por mtodos indirectos. Razn, regresin y diferencia

241

El valor del sesgo del estimador simple o separado es el siguiente:


L X 1 ) = E( X ) < X = E( X RS ) < X ) = 1 B( X ) = B( R ) Yh B( X ) < = (E( X RS RS RS RS h N N N N N h

Se observa que el sesgo total es la suma de los sesgos en cada estrato ponderados por los Yh/N. Para muestreo sin reposicin la expresin del sesgo ser:
2 L L ) = 1 B( X ) = N h (1 < f h ) (R S 2 < S ) = Wh (1 < f h ) (R S 2 < S ) B( X RS RS h Yh XYh h Yh XYh N n h Yh h Nn h Yh h

)= (X que puede estimarse como: B RS


Muestreo con reposicin

Wh (1 < f h ) 2 Rh S Yh < S XYh nhYh h


L

El valor de la varianza del estimador separado de la media para muestreo con reposicin ser:
2 L 1 2 Nh ) = 1 V (X 2 ) = m xh + Rh2m yh V (X < 2 Rhm xyh = RS RS 2 2 n N N h h 1 2 3 Wh2

Wh2 n N h h h
L

Nh Nh Nh 2 2 2 X hi + Rh Yhi < 2 Rh X hi Yhi i i i

La estimacin de la varianza para muestreo con reposicin ser:


2 n n L Wh2 n ) = L Wh S 2 2 2 2 2 2 + R = (X V S R S X R Y R 2 2 < + < n xh h yh h xyh n (n <1) RS hi h hi h X hi Yhi i i i h h h h h
h h h

Para muestreo con reposicin la expresin del sesgo ser:


2 L L Wh ) = 1 B( X 2 ) = Nh R m 2 <m R hm Yh < m XYh B( X h Yh XYh = RS RS N n Y Nn Y h h h h h h

(X )= que puede estimarse como: B RS

n Y
h

Wh

h h

S (R
h

2 Yh

<S XYh

El mtodo de estimacin estratificada por razn simple o separada presenta como principal ventaja la obtencin de estimaciones separadas por estratos, lo que permite ofrecer informacin de la poblacin al subnivel de estratos. El principal inconveniente de este mtodo es la acumulacin de los sesgos de las estimaciones en los estratos para el clculo del sesgo total. En la prctica suele utilizarse este mtodo cuando los estratos son de tamao elevado (habr pocos estratos en la poblacin, lo que implica pocos sumandos en la acumulacin de sesgos). Tambin suele utilizarse cuando los Rh tienden a ser muy distintos.

242 Muestreo estadstico. Conceptos y problemas resueltos

Estimador de razn combinado (para el total poblacional) $ xst X $ Se considera inicialmente la razn de los estimadores estratificados RC = = $ st , y se yst Y st =R u Y (ya que el estimador del total basado en la razn forma el estimador del total X RC C $ $ es X = R u Y ).
Muestreo sin reposicin El valor de la varianza de este estimador para muestreo sin reposicin ser:
) = V (R u Y ) =Y 2uV ( R ) = Y 2 u 1 ( V ( x ) + R 2 V ( y ) < 2RCov( x , y )) V (X RC C C st st st 1 2 3 1 2 3 142 4 st 43 4 { Y2 S S S N Y W (1< f ) n W (1< f ) n W (1< f ) n
2 2 L

2 h

2 Xh h

2 h

2 Yh h

2 h

XYh h

N2 h

N W (1 < f h ) 2 W (1 < f h ) 2 2 2 2 (S xh + R 2 S yh < 2R S xyh ) = N 2 + < 2 X R Y R X hi Yhi hi hi nh i i h nh ( N h < 1) i L Nh Nh


h

2 h

2 h

En el clculo de esta varianza se ha aplicado la frmula general de la varianza del estimador de la razn ya estudiada anteriormente. La estimacin de la varianza para muestreo sin reposicin ser:
2 2 nh L L nh 2 2 nh 2 h (1< fh ) $2 h (1< fh ) $( X $ ) = N2 W $ 2S $2 < 2R $S $ = N2 W + 2 X + R Y < R XhiYhi V S R hi RC xh yh xyh hi nh i i h h nh (nh < 1) i

El valor del sesgo del estimador combinado para el total es el siguiente:

$ ) = E( X $ ) < X = E( R $ Y) < B(X RC RC C

X $ )Y < RY = ( E ( R $ ) < R)Y = B ( R $ )Y Y = E( R C C C Y

Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para muestreo sin reposicin la expresin del sesgo ser:
XYh Wh2 (1< f h ) nYh Wh2 (1< f h ) n h h h h 67 44 8 6 447 448 2 L $ ) = B (R $ )Y = R V ( y st ) < Cov ( x st , y st ) u Y = N 2 Wh (1 < f h ) ( RS 2 <S ) B(X RC C Yh XYh 2 h nh Y Y { L

S2

Y2 / N2

L Wh2 (1 < f h ) $ $ 2 2 $ $ que puede estimarse como: B ( X RC ) = N ( RSYh < S$ XYh ) n Y h h

Muestreo con reposicin El valor de la varianza del estimador combinado del total para muestreo con reposicin ser:

Muestreo por mtodos indirectos. Razn, regresin y diferencia

243

) = V (R u Y ) =Y 2uV ( R ) = Y 2 u 1 (V ( x ) + R 2 V ( y ) < 2 R Cov ( x , y ) ) V (X RC C C st st st 2 3 1 2 3 142 4 st 43 4 { Y2 1 m m m N Y W n W n W n


2 2 L

2 h

2 Xh h

2 h

2 Yh h

2 h

XYh h

L L W W 2 2 (m xh + R 2m yh < 2 R m xyh ) = N 2 N2 h nh h nh N h

2 h

2 h

2 2 2 X hi + R Y hi < 2 R X hi Yhi i i i
Nh Nh Nh

La estimacin de la varianza para muestreo con reposicin ser:


2 2 nh nh L L nh 2 2 2 $( X $ ) = N 2 Wh S $2 + R $ 2S $ 2 < 2 RS $ $ = N 2 Wh $ $ V X + R Y < 2 R X hiYhi RC xh yh xyh hi hi i i h nh h nh (nh < 1) i

Para muestreo con reposicin la expresin del sesgo ser:


W n W n h h 6 7 8 647 48 2 L W < ( ) ( R V y Cov x 2 2 st st , y st ) h ) = B( R )Y = u = <m XYh ) ( Rm Yh Y N B( X RC C 2 h n Y Y h {
Y2 / N2
L 2 2 m Yh h h L 2 m XYh h h

$( X $ ) = N 2 Wh ( RS $ $2 < S $ ) que puede estimarse como: B RC Yh XYh n Y h h


L

Estimador de razn combinado (para la media poblacional)

$ xst X $ Se considera inicialmente la razn de los estimadores estratificados RC = = $ st , y se yst Yst =R u Y (ya que el estimador del total basado en la forma el estimador de la media X RC C $ $ u Y ). razn es X = R
Muestreo sin reposicin El valor de la varianza de este estimador para muestreo sin reposicin ser:
) = V (R u Y ) =Y 2uV ( R ) = Y 2 u 1 ( V ( x ) + R 2 V ( y ) < 2 RCov( x , y )) V (X RC C C st st st 1 2 3 1 2 3 142 4 st 43 4 Y2 S S S W (1< f ) n W (1< f ) n W (1< f ) n
L

2 h

2 Xh h

2 h

2 Yh h

2 h

XYh h

W (1 < f h ) 2 W (1 < f h ) 2 2 2 (S xh + R 2 S yh X hi < 2 R S xyh ) = + R 2 Yhi < 2 R X hi Yhi nh i i h h n h ( N h < 1) i


L L Nh Nh Nh

2 h

2 h

En el clculo de esta varianza se ha aplicado la frmula general de la varianza del estimador de la razn ya estudiada anteriormente. La estimacin de la varianza para muestreo sin reposicin ser:
2 2 n n n L ) = L Wh (1 < fh ) S 2 2 2 2 2 = Wh (1 < fh ) 2 + R (X < + < 2 2 V S R S X R Y R X hiYhi n n (n < 1) RC xh yh xyh hi hi i i i h h h h h
h h h

244 Muestreo estadstico. Conceptos y problemas resueltos

El valor del sesgo del estimador combinado para la media es el siguiente:

$ ) = E( X $ ) < X = E(R $ Y ) < X Y = E(R $ )Y < RY = ( E ( R $ ) < R) Y = B( R $ )Y B( X RC RC C C C C Y


Se observa que para el sesgo total no se acumulan los sesgos en cada estrato. Para muestreo sin reposicin la expresin del sesgo ser:

W (1< f ) n W (1< f ) n h h 6 7 8 6 47 4 48 4 2 L W (1 < f ) R V ( y ) Cov ( x , y < 2 st st st ) h h )Y = B ( X RC ) = B ( R Y ( RS Yh u = <S XYh ) C 2 h nhY Y


2 h h h 2 h h h

2 SYh

S XYh

$( X ) = que puede estimarse como: B RC


Muestreo con reposicin

Wh2 (1 < f h ) $ $ 2 n Y ( RSYh < S$ XYh ) h h


L

El valor de la varianza del estimador combinado de la media para muestreo con reposicin ser:
) = V (R u Y ) =Y 2uV ( R ) = Y 2 u 1 (V ( x ) + R 2 V ( y ) < 2 RCov ( x , y )) V (X RC C C st st st 2 3 1 2 3 142 4 st 43 4 Y2 1 m m m W n W n W n
L

2 h

2 Xh h

2 h

2 Yh h

2 h

XYh h

N N L W W N 2 2 2 2 (m xh X hi + R 2m yh < 2 R m xyh ) = + R 2 Yhi < 2 R X hi Yhi i i h nh h nh N h i L


h h h

2 h

2 h

La estimacin de la varianza para muestreo con reposicin ser:


2 n n L L Wh2 n ) = Wh S 2 2 2 2 2 2 + R = (X V S R S X R Y R X hi Yhi 2 2 < + < n xh n (n < 1) RC yh xyh hi hi i i i h h h h h
h h h

Para muestreo con reposicin la expresin del sesgo ser:


W n W n h h 6 7 8 647 4 48 4 2 L W R V ( y ) Cov ( x , y < 2 st st st ) h )Y = B( X RC ) = B( R u Y = ( Rm Yh <m XYh ) C 2 h n Y Y h
2 h h 2 h h L 2 m Yh L

m XYh

$ )= $( X que puede estimarse como: B RC

Wh2 $ $ 2 $ n Y ( RSYh < S XYh ) h h


L

El mtodo de estimacin estratificada por razn combinada presenta como principal ventaja la no acumulacin de los sesgos de las estimaciones en los estratos para el clculo del sesgo total, lo que reduce el sesgo del estimador final respecto de la estimacin separada. El principal inconveniente de este mtodo es la imposibilidad de obtencin de estimaciones separadas por estratos, lo que no permite disponer de informacin de la poblacin al subnivel de estratos. En la prctica suele utilizarse este mtodo cuando los estratos son de tamao pequeo (habr muchos estratos en la poblacin, lo que implica demasiado sesgo por estimacin separada). En general suele utilizarse siempre que la estimacin separada presenta demasiado sesgo. Tambin suele utilizarse cuando los Rh tienden a ser constantes.

Muestreo por mtodos indirectos. Razn, regresin y diferencia

245

ESTIMADORES DE REGRESIN EN EL MUESTREO ESTRATIFICADO


Tambin distinguiremos aqu entre el estimador simple o separado obtenido a partir de estimaciones de regresin en cada estrato, cuya expresin ser

x rgst = Wh x rgh , y el
h

estimador combinado, obtenido directamente a partir de las medias estratificadas, que vale x rgc = x st + b Y < y st .

Ambos estimadores son insesgados para un valor bo prefijado de b, ya que:

E ( xrgst ) = Wh E ( xrgh ) = Wh X h = X

E ( xrgc ) = E ( xst ) + b( Y < E ( yst )) = X + b(Y < Y ) = X


Como en el caso de los estimadores de la razn, el estimador combinado suele ser ms apropiado que el simple cuando el sesgo de x rgh es aproximadamente constante en los diversos estratos y esperamos regresiones lineales en ellos.

Estimador simple o separado


Muestreo sin reposicin En el supuesto b = bo la varianza del estimador simple para la media es:

V xrgst = Wh2V xrgh = Wh2


h h

( )

( )

que ser mnima cuando lo sean las V x rgh , es decir, cuando bo = ` h = La varianza mnima ser entonces:
V xrgst = Wh2V xrgh = Wh2
h h

( )

1< fh 2 2 ( S Xh + bo S Xh < 2bo S XYh ) nh

S XYh 2 SYh

( )

( )

L 1< f h 2 1< f h 2 2 ( S Xh + ` h S Xh < 2 ` h S XYh ) = Wh2 Sxh (1 < l 2 xyh ) nh n h h

que puede estimarse mediante:


L L 1< fh $2 2 1< fh $2 2 $ $ $ $ $ $ 2 xyh ) V xrgst = Wh ( S Xh + ` h S Xh < 2 ` h S XYh ) = Wh2 S xh (1 < l nh nh h h

( )

$ = Para la estimacin separada del total X rgst

N
h

x rgh se tiene:

L L L 2 2 1< f h 2 2 2 1< f h $ V X S 2 (1 < l 2 xyh ) ( S Xh + ` h S Xh < 2 ` h S XYh ) = N h rgst = N h V xrgh = N h nh nh xh h h h

( )

246 Muestreo estadstico. Conceptos y problemas resueltos

que puede estimarse mediante:


L L 1< fh $2 2 1< fh $2 2 $ $ $ $ $ $ $ 2 xyh ) V X rgst = N h ( S Xh + ` h S Xh < 2 ` h S XYh ) = N h2 S xh (1 < l nh nh h h

Muestreo con reposicin En el supuesto b = bo la varianza del estimador simple es:

V xrgst = Wh2V xrgh = Wh2


h h

( )

( )

que ser mnima cuando lo sean las V xrgh , es decir, cuando bo = ` h = La varianza mnima ser entonces:
Vmin xrgst = Wh2V xrgh = Wh2
h h

( )

1 2 2 (m Xh + bom Xh < 2bom XYh ) nh

S XYh m XYh 2 = 2 mYh SYh

( )

( )

L 1 2 1 2 2 (m Xh + ` hm Xh (1 < l 2 xyh ) < 2 ` hm XYh ) = Wh2 m xh nh nh h

que puede estimarse mediante:


L L 1 $2 2 1 $2 2 $ $ $ $ $ $2 Vmin xrgst = Wh ( S Xh + ` h S Xh < 2 ` h S XYh ) = Wh2 S xh (1 < l xyh ) nh nh h h

( )

Para el estimador del total se tendra:


L L L 1 2 2 2 1 2 2 $ Vmin X N V x N m ` m 2 ` m N h2 m xh = = ( + < ) = (1 < l 2 xyh ) rgst h rgh h Xh h Xh h XYh nh nh h h h

( )

L L 2 1 $2 $S $ X $ $ 2 < 2 `$ S $ ) = N2 1 S $ 2 (1 < l $ 2 xyh ) V N ( S = + ` min rgst h Xh h Xh h XYh h xh n n h h h h

Estimador combinado
Muestreo sin reposicin El estimador combinado para la media se forma como:

xrgc = xst + bo ( Y < yst ) con

x st = Wh xh
h

y st = Wh yh
h

Su varianza puede expresarse de la siguiente forma:

V xrgc = V ( xst ) + bo2V ( Y < yst ) < 2bo cov( xst , Y < yst ) = Wh2 ( 1 < f h ) 2 2 V ( xst ) + b V ( yst ) < 2bo cov( xst , yst ) = u S xh + bo2 S yh < 2bo S xyh n h h
2 o L

( )

Muestreo por mtodos indirectos. Razn, regresin y diferencia

247

Para hallar el valor de bo que minimiza esta expresin, igualamos a cero su derivada respecto de bo y tenemos:
L Wh2 ( 1 < f h ) 2 Wh2 ( 1 < f h ) 2b0 u S yh < 2 u S xyh = 0 bo = nh nh h h L

Wh2 ( 1 < f h ) n u S xyh h h


L

Wh2 ( 1 < f h ) 2 n u S yh h h
L L

Pero como ` h =

S xyh
2 S yh

2 , se tiene bo = S xyh = ` h S yh

Wh2 ( 1 < f h ) 2 n u S yh ` h h h Wh2 ( 1 < f h ) 2 n u S yh h h


L

El valor bo que minimiza la varianza del estimador combinado es entonces una medida ponderada de los coeficientes de regresin `h, siendo las ponderaciones dadas por

th =

W (1 < f h ) 2 u S yh , de tal forma que se puede escribir bo = nh


2 h

t `
h h

t
h

= ` c , pudiendo

expresarse la varianza mnima como:

Vmin xrgc = Wh2


h

( )

1< fh 2 2 u S xh + ` c2 S yh < 2 ` c S xyh nh

que puede estimarse como:

$ $ $ x = W 2 1 < f h u S $ 2 + `$ 2 S $2 V xh c yh < 2 ` c S xyh min rgc h nh h

( )
L h L

donde:

`$c =

$ `$ t
h

$ t
h

$h = ,t

$ S Wh2 ( 1 < f h ) 2 $ y `$ = xyh . uS yh h $2 nh S yh

Para estimar el total, el estimador combinado se forma como:

=X + b Y <Y = N x + b ( NY < N y ) = N x X rgc st o st st o st rgc


Su varianza puede entonces expresarse en funcin de la varianza para la estimacin de la media de la siguiente forma:
2 2 $ V X rgc = V Nx rgc = N V x rgc = N h

) (

( )

Wh2 ( 1 < f h ) nh

2 2 u S xh + bo2 S yh < 2bo S xyh

248 Muestreo estadstico. Conceptos y problemas resueltos

pudiendo expresarse la varianza mnima como:

Vmin

( (

1< fh 2 2 2 2 $ X u S xh + ` c2 S yh < 2 ` c S xyh rgc = N Wh nh h

que puede estimarse como:


l 1< fh $2 2 $ $ $ 2 < 2 `$ S $ Vmin X rgc = N Wh2 u S xh + `$c2 S yh c xyh nh h

Muestreo con reposicin El valor bo que minimiza la varianza del estimador combinado para la media es una media ponderada de los coeficientes de regresin `h, siendo las ponderaciones dadas por

th =

W 2 u m yh , de tal forma que se puede escribir bo = nh

2 h

t `
h h

t
h

= ` c , pudiendo expresarse la

varianza mnima como:

Vmin x rgc = Wh2


h

( )

1 2 2 u m xh + ` c2m yh < 2 ` cm xyh nh

que puede estimarse como:


l 1 $2 $ $ 2 < 2 `$ S $ Vmin x rgc = Wh2 u S xh + `$c2 S yh c xyh nh h

( )
h

donde:

`$c =

$ `$ t
h

$ t
h

$ S Wh2 $ 2 xyh $h = ,t u S yh y `$h = $ 2 . nh S yh

Para estimar el total, la varianza puede entonces expresarse en funcin de la varianza para la estimacin de la media de la siguiente forma:

Wh 2 2 2 2 $ V X u m xh + bo2m yh < 2bom xyh rgc = V Nx rgc = N V x rgc = N h nh

) (
Vmin

( )

pudiendo expresarse la varianza mnima como:

( (

l 1 2 2 2 $ X rgc = N Wh2 u m xh + ` c2m yh < 2 ` cm xyh nh h

que puede estimarse como:


l 1 2 2 $ X $ $ 2 < 2 `$ S $ V = N + `$c2 S Wh2 n u S$xh min rgc yh c xyh h h

Muestreo por mtodos indirectos. Razn, regresin y diferencia

249

Comparacin de precisiones en los stimadores de regresin separado y combinado


Vamos a comparar las varianzas mnimas de los estimadores de regresin separado y combinado. Tenemos:
L (1 < f h ) 2 2 Vmin ( X rg ,c ) < Vmin ( X rg , s ) = Wh2 S Xh + ` c2 S Yh < 2 ` c S XYh nh h =1 L L (1 < f h ) 2 2 < Wh2 S Xh + ` h2 S Yh < 2 ` h S XYh = u h ` c2 < ` h2 < 2u h (` c < ` h )` h nh h =1 h =1

[ (

= u h (` c < ` h ) * 0
2 h =1

Luego el estimador separado de regresin es ms preciso que el combinado. Ambos tendrn igual varianza cuando ` c = ` h h = 1, ..., L .

250 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
6.1.
En un estudio para estimar el contenido total de azcar de una carga de naranjas, se pes una muestra de 10 naranjas, y se extrajo su jugo para pesar el contenido de azcar. Se obtuvieron los siguientes resultados:
Naranja 1 2 3 4 5 6 7 8 9 10 Contenido de azcar 0,021 0,030 0,025 0,022 0,033 0,027 0,019 0,021 0,023 0,025 Peso de la naranja 0,40 0,48 0,43 0,42 0,50 0,46 0,39 0,41 0,42 0,44

1) Sabiendo que el peso de todas las naranjas es 1800, estimar el contenido total de azcar de las naranjas y su error de muestreo. 2) Estimar dichas varianzas y comparar la precisin de este tipo de muestreo con la del muestreo aleatorio simple. Seleccionar la muestra ms precisa. Como disponemos de informacin de una variable adicional muy correlacionada con la variable en estudio (l = 0,99), podemos realizar la estimacin del contenido total de azcar de las naranjas utilizando el estimador del total basado en la razn. Mediante el procedimiento Estadstica descriptiva de la opcin Anlisis de datos del men Herramientas (Figura 6-1), podemos calcular los estadsticos ms relevantes relativos a la variable en estudio y a la variable adicional. La Figura 6-2 muestra los resultados. Las frmulas para los clculos del estimador del total y de su error en la estimacin $( X $ ) = N 2 1< f S 2 + R 2 < 2R , se muestran en la Figura 6-3, y los resultados 2S S por razn, V R x y xy n en la Figura 6-4.

Figura 6-1

Figura 6-2

Muestreo por mtodos indirectos. Razn, regresin y diferencia

251

Figura 6-3

Figura 6-4

6.2.

Consideramos una poblacin de 500 individuos en la que est definida la caracterstica bidimensional (Xi,Yi) que mide las ganancias mensuales en miles de euros de los varones (X) y las mujeres (Y) con ttulo universitario superior. Una muestra aleatoria simple de tamao 80 proporciona los siguientes datos:

X i = 420
i =1

80

Yi = 190
i =1

80

X i2 = 2284
i =1

80

Yi 2 = 512
i =1

80

X Y
i =1

80

i i

= 1045

1) Estimar la razn de las ganancias mensuales femeninas respecto de las masculinas, su sesgo y su error de muestreo. Estudiar la posible influencia del sesgo. 2) Se trata de estimar con y sin reposicin la media y el total de las ganancias mensuales femeninas en la poblacin utilizando la informacin adicional de la variable ganancia mensual masculina mediante un mtodo de estimacin indirecta. Qu mtodo indirecto sera el ms adecuado? Por qu? Realizar las estimaciones de las ganancias femeninas media y total mensuales mediante los mtodos indirectos conocidos ordenndolos en precisin y sabiendo que la ganancia total masculina es 10000. c) Cuantificar la ganancia en precisin respecto del muestreo aleatorio simple. Tenemos:
2 2 80 80 80 80 2 = 1 X 2 < 1 2 = 1 Y 2 < 1 = 0,768 S X = 1 , S Y i n i n x i y i n <1 n <1 i =1 i =1 i =1 i =1 80 80 80 1 = 1 S X i Yi < X i Yi = 0,6012 xy n < 1 i =1 n i =1 i =1

x=

1 80 X i = 5,25 n i =1

y=

1 80 Yi = 2,375 n i =1

252 Muestreo estadstico. Conceptos y problemas resueltos

Estimar la razn de las ganancias mensuales femeninas respecto de las masculinas es equivalente a estimar la razn de Y a X.

= La razn Y/X se estima mediante R

y y = = 0,452 . x x

El sesgo del estimador de la razn anterior se estima mediante:

2 < S = (1 < 80 / 500) (0,452 u 1 < 0,6012) = <0,0000568 (R ) = (1 < f ) R S B x XY 2 nx 80 u 5,25 2


El error de muestreo del estimador de la razn se estima mediante:

) = (R m

(1 < f ) 2 2 2 = (1 < 80/ 500) (0,768 + 0,4522 u1 < 2 u 0,452u 0,6012) = 0,0128 S S y + R Sx < 2R XY 2 nx 80 u 5,252
Para ver si el sesgo del estimador de la razn es influyente hallamos el valor del sesgo

relativo

(R ) 0,0000568 B = = 0,004 < 0,1 , por lo que el sesgo es despreciable. ) 0,0128 (R m

Estimar la media y el total de las ganancias mensuales femeninas en la poblacin es equivalente a estimar la media y el total de Y. Para estudiar qu mtodo de estimacin indirecta es el ms adecuado al estimar la media y el total de Y utilizamos la recta de regresin de la variable en estudio Y sobre la variable auxiliar X, cuya ecuacin es:

y<y =

S xy ( x < x ) y = 0,6012 x < 0,78 S2


x

Observamos que la recta de regresin de Y sobre X tiene una ordenada en el origen cercana a cero (comparada con los valores medios de X e Y), lo que indica que puede ser razonable la estimacin indirecta de los parmetros poblacionales utilizando estimacin basada en la razn. Adems, el sesgo del estimador de la razn ser pequeo (como ya hemos visto) porque la recta de regresin est prxima a pasar por el origen. Evidentemente, la estimacin indirecta basada en regresin ser la ms apropiada, como ocurre siempre. Puede suceder que la estimacin indirecta basada en la diferencia sea la menos apropiada ya que la pendiente de la recta de regresin no est claro que se aproxime a la unidad. La utilizacin de mtodos indirectos de estimacin en todo el problema es

= apropiada, ya que el coeficiente de correlacin l


Muestreo sin reposicin

S xy 0,7 es alto. S S
x y

Comenzamos realizando estimaciones para la media y el total de la variable en estudio Y basadas en la razn de Y a la variable auxiliar X y a su vez calculamos tambin las varianzas de los estimadores.

Muestreo por mtodos indirectos. Razn, regresin y diferencia

253

=R =R X = y X = 0,452 u 10000 = 4520 X = y X = 0,452 u 10000 = 9,04 Y Y x 500 x


) = (1 < f ) S = 2 + R 2 < 2R (Y S 2S V y x XY n

(1 <

2 + R 2 < 2R = 500 2 u 0,0073 = 1825 (Y ) = N 2 (1 < f ) S 2S S V y x XY n

80 ) 500 0,768 + 0,4522 u1 < 2 u 0,452 u 0,6012 = 0,0073 80

Ahora calculamos estimadores y varianzas basados en la regresin.

= y + b( X < x ) = y + S xy ( X < x ) = 2,375 + 0,6012 1000 < 5,25 = 11,2427 Y rg 2 1 500 S x = 500 u 11,2427 = 5621,35 = NY Y
rg rg

) = (1 < f ) S 2 1< l (Y 2 = V min rg y n ) = 500 2 u 0,004 = 1000 2 (Y )=N V (Y V

1<

80 500 0,768(1 < 0,7 2 ) = 0,004 80

min

rg

min

rg

Ahora calculamos estimadores y varianzas basados en la diferencia.

=D + X = y < x + X = 2,375 < 5,25 + 10000 = 17,125 Y 500 =D + X = N ( y < x ) + NX = NY = 500 u 17,125 = 8562,5 Y
T

) = V (D 2 + S 2 < S = 0,009 + X ) = V (D ) = (1 < f ) S V (Y y x XY n ) = V (D + X ) = V (D ) = N 2V ( D ) = 500 2 u 0,009 = 2250 V (Y T T


Ahora calculamos estimadores y varianzas para muestreo aleatorio simple.

= y = 2,375 Y as

= 500 u 2,375 = 1187,5 = NY Y as as

) = (1 < f ) S 2 = (Y V as y n ) = 500 2 u 0,008 = 2000 (Y ) = N 2V (Y V


as as

1<

80 500 0,768 = 0,008 80

Se observa que la menor varianza la presenta el estimador basado en la regresin, seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador basado en la diferencia. Estos resultados coinciden con los especificados al principio del problema basados en la recta de regresin.

254 Muestreo estadstico. Conceptos y problemas resueltos

> El estimador basado en la razn mejora al aleatorio simple si se cumple l > 0,7 = l S 1C 1 x = = x R 0,452 = 0,5157 2C 0,678 S y y

1C x 2C y

Por lo tanto, el muestreo basado en la razn es ms preciso que el aleatorio simple. Ello implica que el muestreo basado en la regresin tambin es ms preciso que el aleatorio simple. Sin embargo, ya hemos visto que el muestreo por diferencia es ligeramente menos preciso que el aleatorio simple. La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G = (0,008/0,004 < 1)100 = 100%. La ganancia en precisin del estimador de razn sobre el aleatorio simple es G = (0,008/0,0073< 1)100 = 9,5%. La ganancia en precisin del estimador aleatorio simple sobre el de diferencia es G = (0,009/0,008< 1)100 = 12,5%. Muestreo con reposicin Las estimaciones de la media y total valen lo mismo que en muestreo sin reposicin. Calculamos las estimaciones de las varianzas de los estimadores para estimacin indirecta por razn.

) = 1 S 2 + R 2 < 2R = 0,00869 (Y 2S S V y x XY n 2 + R 2 < 2R = 2172,5 (Y ) = N 2 1 S 2S S V y x XY n

Ahora estimamos varianzas basadas en la regresin.

1 )= 1S 2 1< l (Y 2 = 0,768(1 < 0,7 2 ) = 0,00476 V min rg y n 80 2 (Y )=N V (Y ) = 500 2 u 0,00476 = 11900 V

min

rg

min

rg

Ahora estimamos varianzas basadas en la diferencia.

) = V (D 2 + S 2 < S = 0,0107 + X ) = V (D ) = 1 S V (Y y x XY n ) = V (D + X ) = V (D ) = N 2V ( D ) = 500 2 u 0,0107 = 2675 V (Y T T


Ahora estimamos varianzas para muestreo aleatorio simple.

)= 1S 2 = 1 0,768 = 0,0096 (Y V as y n 80 2 (Y )=N V (Y ) = 500 2 u 0,0096 = 2400 V


as as

Muestreo por mtodos indirectos. Razn, regresin y diferencia

255

Se observa que la menor varianza la presenta el estimador basado en la regresin, seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador basado en la diferencia. Estos resultados presentan varianzas mayores que en el caso de sin reposicin para todos los estimadores, ya que el muestreo con reposicin es menos preciso que el muestreo sin reposicin. La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G = (0,0096/0,00476< 1)100 = 101,6%. La ganancia en precisin del estimador de razn sobre el aleatorio simple es G = (0,0096/0,00869< 1)100 = 10,47%. La ganancia en precisin del estimador aleatorio simple sobre el de diferencia es G = (0,0107/0,0096< 1)100 = 11,45%. Se observa que la utilizacin del mtodo indirecto de estimacin basado en la regresin mejora fuertemente la estimacin aleatoria simple, y que la utilizacin del mtodo indirecto de estimacin basado en la razn mejora levemente la estimacin aleatoria simple. Las ganancias en precisin se han acentuado levemente respecto del muestreo sin reposicin. El mtodo indirecto de la diferencia es ligeramente peor que el aleatorio simple; sin embargo, la ganancia en precisin del aleatorio simple sobre la estimacin por diferencia disminuye al considerar reposicin.

6.3.

De los N = 750 trabajadores de una fbrica se conoce que el nmero medio de das anuales de ausencia del trabajo sin justificar para las mujeres (variable X) es 10 y para los hombres (variable Y) es 8. Se sabe que el error cometido al cuantificar la media de la variable X es 2500 y que la razn de la covarianza de X e Y a la varianza de X es 0,6. Determinar a partir de qu tamao muestral el sesgo del estimador de la razn Y/X es despreciable utilizando muestreo sin y con reposicin. Qu mtodo de estimacin indirecta sera el ms adecuado a utilizar sobre muestras de esta poblacin? Determinar a partir de qu tamao muestral el sesgo del estimador de la razn Y/X es despreciable utilizando muestreo sin y con reposicin. Qu mtodo de estimacin indirecta sera el ms adecuado a utilizar sobre muestras de esta poblacin? El enunciado del problema nos da como datos:
X = 10 , Y = 8 , m x2 = 2500 y

m xy = 0,6 m x2

De la condicin de que el sesgo relativo

) B( R sea menor que un dcimo se ) m (R

750 2500 N u 100 u S 749 obtiene que n * = = 577 . 750 NX 2 + 100S x2 2 750 u 10 + 100 2500 749
2 x

750 u 100 u

256 Muestreo estadstico. Conceptos y problemas resueltos

En caso de muestreo con reposicin la misma condicin de sesgo relativo menor que un m2 2500 dcimo nos lleva a n * 100 x2 = 100 = 2500 , que sobrepasa el tamao poblacional (con 100 X los datos del problema nunca podra ser el sesgo despreciable). La recta de regresin de Y sobre X tiene de ecuacin y < y =

S xy (x < x) 2 S
x

y < 8 = 0,6( x < 10) y = 0,6 x + 2 , lo que indica que la estimacin por razn podra
ser adecuada al no ser demasiado grande la ordenada en el origen. La estimacin por regresin siempre es el mtodo ms adecuado. La pendiente de la recta no es unitaria, con lo que no es muy apropiada la estimacin por diferencia.

6.4.

Para estudiar el grado medio de implantacin de un determinado cultivo en una regin se obtuvo una muestra de 100 fincas para las que se midi la superficie dedicada al cultivo en estudio (variable X) y su superficie total (variable Y), obtenindose los datos que se presentan en la tabla adjunta. Se pide: 1) A la vista de la informacin, justificar si ser adecuado el uso de los mtodos indirectos de muestreo respecto del muestreo aleatorio simple y estudiar qu mtodos sern los ms adecuados expresndolos por orden de preferencia. Hallar los errores relativos de muestreo para los diferentes mtodos cuantificando sesgos y ganancias en precisin y razonando adecuadamente los resultados. Contrastar tambin los resultados obtenidos considerando muestreo con reposicin y sin reposicin. 2) Dada la estructura de las fincas se consider conveniente realizar una estratificacin segn la variable superficie total de la fincas. Se consideraron dos estratos relativos a fincas de superficie total superior a una hectrea y a fincas de superficie total menor o igual que una hectrea. Los datos obtenidos tambin se presentan en la tabla adjunta. A la vista de esta informacin, justificar si sern adecuados los mtodos de estimacin indirecta con estratificacin y cul de entre ellos puede resultar mejor. Hallar los errores relativos de muestreo para los diferentes mtodos de estimacin con muestreo estratificado cuantificando sesgos y ganancias en precisin y razonando adecuadamente los resultados. Contrastar tambin los resultados obtenidos considerando muestreo con reposicin y sin reposicin.
Superficie 2 Nh S yh de las fincas 1 0< 1Ht 1580 2055 > 1Ht 2 430 7357 Poblacin 7619 Estratos 2 S xh xyh l yh xh nh

312 0.62 82.5 19.4 70 922 0.3 244.8 51.6 30 620 0.67

Se trata de estimar con y sin reposicin la media y el total de Y utilizando la informacin adicional de la variable X mediante un mtodo de estimacin indirecta. Qu mtodo indirecto sera el ms adecuado? Por qu? Realizar las estimaciones de media y total mediante los mtodos indirectos conocidos ordenndolos en precisin y sabiendo que el total de X es 10000.

Muestreo por mtodos indirectos. Razn, regresin y diferencia

257

= Tenemos como dato que l

S xy = 0,67 , por lo que la utilizacin de mtodos S S


x y

indirectos de estimacin en todo el problema es apropiada, ya que el coeficiente de correlacin estimado es alto. Para estudiar qu mtodo de estimacin indirecta es el ms adecuado al estimar la superficie dedicada al cultivo (variable X) en las fincas utilizamos la recta de regresin de la variable en estudio X sobre la variable auxiliar Y superficie total de las fincas, cuya ecuacin es:
x<x = S 1453 xy ( y < y ) x < 26,3 = ( y < 117,28) x = 0,19 y + 4 2 7619 Sy
2

x = Wh x h =
h =1 2

N1 N 1580 430 x1 + 2 x 2 = 19,4 + 51,63 = 26,3 N N 2010 2010 N1 N 1580 430 y1 + 2 y 2 = 82,56 + 244,85 = 117,28 N N 2010 2010
= x = 26,30 = 0,224 R y 117,28

y = Wh y h =
h =1

=l S xy S S xy x y 0,67 620 7619 = 1453

Observamos que la recta de regresin de X sobre Y tiene una ordenada en el origen que no se anula, pero es pequea (comparada con los valores medios de X e Y), lo que indica que puede ser razonable la estimacin indirecta de los parmetros poblacionales utilizando estimacin basada en la razn. Adems el sesgo del estimador de la razn ser pequeo porque la recta de regresin est prxima a pasar por el origen. Evidentemente, la estimacin indirecta basada en regresin ser la ms apropiada, como ocurre siempre. La estimacin indirecta basada en la diferencia ser la menos apropiada, ya que la pendiente de la recta de regresin no se aproxima a la unidad. 1C y > El estimador basado en la razn mejora al aleatorio simple si se cumple l 2C
S 1C 1 7619 26,30 y y > 0,67 = l = R= = 0,393 2C 2 620 117,28 S x x
x

Por lo tanto, el muestreo basado en la razn es ms preciso que el aleatorio simple. Ello implica que el muestreo basado en la regresin tambin es ms preciso que el aleatorio simple. Sin embargo, ya hemos razonado que el muestreo por diferencia probablemente ser menos preciso que el aleatorio simple, y, por tanto, tambin ser menos preciso que la estimacin por razn y regresin. Vamos a realizar los clculos de varianzas. Muestreo sin reposicin Comenzamos hallando el error para la estimacin de la media (grado medio de implantacin del cultivo medido a travs de la superficie dedicada al cultivo) de la variable en estudio X basada en la razn de X a la variable auxiliar Y.

258 Muestreo estadstico. Conceptos y problemas resueltos

) = (1 < f ) S 2 + R 2 < 2R = (X 2S S V x y XY n

(1 <

100 ) 2010 620 + 0,2242 u 7619 < 2 u 0,224 u1453 = 3,335 100

Ahora estimamos el error del estimador de la media basado en la regresin.


) = (1 < f ) S 2 (1 < l (X 2)= V min rg x n 1< 100 2010 620(1 < 0,67 2 ) = 3,24 100

Ahora estimamos el error del estimador de la media basado en la diferencia.


) = V (D 2 +S 2 <S = + Y ) = V (D ) = (1 < f ) S V (X x y XY n

1<

100 2010 (620 + 7619 < 1453) = 64,4 100

Ahora estimamos el error del estimador de la media en el aleatorio simple.


1< ) = (1 < f ) S 2 = (X V as x n 100 2010 100 620 = 5,89 100

Se observa que la menor varianza la presenta el estimador basado en la regresin, seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador basado en la diferencia. Estos resultados coinciden con los especificados al principio del problema basados en la recta de regresin. La ganancia en precisin del estimador de regresin sobre el aleatorio simple es G = (5,89/3,24< 1)100 = 81,8%. La ganancia en precisin del estimador de razn sobre el aleatorio simple es G = (5,89/3,335< 1)100 = 76,6%. La ganancia en precisin del estimador de regresin sobre el de razn es G = (3,335/3,24< 1)100 = 2,9%. En cuanto a la estimacin del sesgo de estimador de la razn tenemos:
100 1< ( 1 ) f < 2010 (0,224 u 7619 < 1453) = 0,02 2 < S = (R ) = S B R y XY 100 u 117,28 ny 2

Este sesgo resulta despreciable porque 0,02/3,335 = 0,006 < 1/10. Muestreo con reposicin Comenzamos estimando el error del estimador de la media de la variable en estudio X basado en la razn de X a la variable auxiliar Y.

) = 1 S 2 + R 2 < 2R = 1 620 + 0,2242 u 7619 < 2 u 0,224 u 1453 = 3,51 (X 2S S V x y XY n 100

Ahora estimamos el error del estimador de la media basado en regresin.

Muestreo por mtodos indirectos. Razn, regresin y diferencia

259

1 )= 1S 2 1< l (X 2 = V 620(1 < 0,67 2 ) = 3,41 min rg x n 100

Ahora estimamos el error del estimador de la media basado en diferencia.


) = V (D 2 +S 2 <S = 1 (620 + 7619 < 1453) = 67,78 + Y ) = V (D ) = 1 S V (X x y XY n 100

Ahora estimamos el error del estimador de la media en el aleatorio simple.

2 620 )= S x (X V = = 6,2 as n 100


Se observa que la menor varianza la presenta el estimador basado en la regresin, seguido del estimador basado en la razn, el estimador aleatorio simple y el estimador basado en la diferencia. Estos resultados son superiores a los correspondientes a muestreo sin reposicin debido a que el muestreo con reposicin es menos preciso. El sesgo del estimador de la razn se estima mediante:

2 < S = (1 < 600 / 1500) (2 u 7 < 3,75) = 0,0005 (R ) = 1 R S B y XY 2 ny 600 u 5,58 2


Consideramos ahora la estratificacin en dos estratos segn la superficie total de las fincas, y vamos a considerar las estimaciones separada y combinada para la media en razn y regresin para calcular sus errores de muestreo y sus sesgos. Comenzaremos determinando valores necesarios en todos los clculos posteriores, como = son: W1 = 1580/2010 = 0,786, W2 = 430/2010 = 0,214, f1 = 70/100 = 0,7, f2 = 30/100 = 0,3, R 1

=l S = 51,63/244,85 = 0,21, S xy1S 19,40/82,56 = 0,235, R xy1 x y = 496,4 y Sxy2 = lxy2Sx Sy = 781,3. 2

Estimador combinado de la razn La estimacin combinada de la varianza del estimador de la media para muestreo sin
) = Wh (1 < fh ) S = 1,51593. 2 + R 2 < 2R (X S 2S reposicin ser V RC xh yh xyh
L 2

nh

El sesgo del estimador combinado para la media puede estimarse como:


2 L ) = Wh (1 < f h ) R 2 < S (X S B nY Yh XYh =0,83/ Y . Las operaciones a realizar son: RC h h

) = 0,83/117,2 = 0,007. (X Pero Y se estima por y = 117,2 B RC


La estimacin de la varianza de la media para muestreo con reposicin ser:
) = Wh S 2 = 3,1375 . 2 < 2R (X S 2S V +R n xh RC yh xyh h h
L 2

260 Muestreo estadstico. Conceptos y problemas resueltos

Para muestreo con reposicin el sesgo puede estimarse como:

Wh 2 )= (X B RS Yh < S XYh =1.00456/ Y n Y RC h h


L

) = 1,00456/117,2 = 0,0085. (X Pero Y se estima por y = 117,2 B RC


Estimador separado de la razn La estimacin de la varianza del estimador de la media para muestreo sin reposicin ser:
L W h2 (1 < f h ) 2 )= 2 < 2R (X 2S S 1,49. V S xh + R RS h yh h xyh = n h h

El valor del sesgo del estimador simple o separado sin reposicin puede estimarse L ) = Wh (1 < f h ) R 2 (X S como: B nY RS h Yh < S XYh = 0,0029. Y 1 e Y 2 se estimarn mediante y 1 h h h e y 2 respectivamente. Los clculos a realizar seran:

La varianza del estimador separado de la media para muestreo con reposicin puede 2 L 2 + R 2 (X ) = Wh S 2S = 3,09792. estimarse como V RS xh h yh < 2 Rh S xyh n h h

Para muestreo con reposicin la expresin del sesgo puede estimarse como :
L 2 (X ) = Wh R S B RS h Yh < S XYh = 0,0033. h n hYh

Estimador combinado en regresin La estimacin de la varianza mnima del estimador de la media viene expresada en muestreo sin reposicin por la expresin:

$ $ $ x = W 2 1 < f h u S $ 2 + `$ 2 S $2 V xh c yh < 2 ` c S xyh min rgc h n h h

( )
h

donde:

= ` c

t
h L h

` h
h

$ S Wh2 ( 1 < f h ) 2 $ y `$ = xyh . $h = 0,16155 con t uS yh h $2 nh S yh

Calculado ` c ya podemos hallar el valor de la varianza mnima mediante:

$ $ $ x = W 2 1 < f h u S $ 2 + `$ 2 S $2 V xh c yh < 2 ` c S xyh =1,46407. min rgc h n h h

( )

La estimacin de la varianza mnima del estimador de la media viene expresada en muestreo con reposicin por la expresin:

Muestreo por mtodos indirectos. Razn, regresin y diferencia


l 1 2 $ x $ 2 < 2 `$ S $ V = + `$c2 S Wh2 n u S$xh min rgc yh c xyh h h

261

( )
h

donde:

= ` c

t
h L h

` h
h

$ S Wh2 $ 2 xyh $h = u S yh y `$h = $ 2 . = 0,18977 con t nh S yh

Calculado ` c ya podemos hallar el valor de la varianza mnima mediante:


l 1 $2 $ x $ 2 < 2 `$ S $ V = Wh2 u S xh + `$c2 S min rgc yh c xyh =3,10321. nh h

( )

Estimador separado en regresin La estimacin de la varianza mnima del estimador de la media viene expresada en muestreo sin reposicin por la expresin:
2 1< fh 2 2 + ` S 2 (x ) = W 2 1 < f h ( S 2 xyh ) = 1,40509 S xh (1 < l V Xh h Xh < 2 ` h S XYh ) = W h min rgst h nh nh h h L L

La estimacin de la varianza mnima del estimador de la media viene expresada en muestreo con reposicin por la expresin:
L L 2 + ` S 2 < 2` S )= W2 1 S 2 (1 < l (x ) = W 2 1 ( S 2 xyh ) = 2,97591 V min rgst h xh Xh h Xh h XYh h n n h h h h

Resumiendo resultados tenemos:


SIN REPOSICIN A 1,49 SEPARADA CON REPOSICIN A 3,09792 RAZN SIN REPOSICIN A 1,51593 COMBINADA CON REPOSICIN A 3,1375 ESTRATIFICADO SIN REPOSICIN A 1,40509 SEPARADA CON REPOSICIN A 2,97591 REGRESIN SIN REPOSICIN A 1,46407 COMBINADA CON REPOSICIN A 3,10321 SIN REPOSICIN A 3,335 RAZN CON REPOSICIN A 3,51 SIN ESTRATIFICAR SIN REPOSICIN A 3,24 REGRESIN CON REPOSICIN A 3,41

262 Muestreo estadstico. Conceptos y problemas resueltos

6.5.

En una determinada comunidad se intenta estudiar el cambio relativo en el valor catastral de los bienes inmuebles en los dos ltimos aos. Se selecciona una muestra irrestricta aleatoria de n = 20 inmuebles de entre los N = 1000 de la comunidad. De los registros fiscales se obtiene el valor catastral para este ao (X) o valor actual y el valor correspondiente de hace dos aos (Y) o valor calculado, de cada una de las n = 20 casas incluidas en la muestra. Se desea estimar R, el cambio relativo en el valor catastral para los N = 1000 inmuebles de la comunidad, usando la informacin contenida en la muestra.
Casa 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total Valor calculado Valor actual

yi
6,7 8,2 7,9 6,4 8,3 7,2 6 7,4 8,1 9,3 8,2 6,8 7,4 7,5 8,3 9,1 8,6 7,9 6,3 8,9 154,5

xi
7,1 8,4 8,2 6,9 8,4 7,9 6,5 7,6 8,9 9,9 9,1 7,3 7,8 8,3 8,9 9,6 8,7 8,8 7 9,4 164,7

yi2
44,89 67,24 62,41 40,96 68,89 51,84 36 54,76 65,61 86,49 67,24 46,24 54,76 56,25 68,89 82,81 73,96 62,41 39,69 79,21 1210,55

xi2
50,41 70,56 67,24 47,61 70,56 62,41 42,24 57,76 79,21 98,01 82,81 53,29 60,84 68,89 79,21 92,16 75,69 77,44 49 88,36 1373,71

xiyi
47,57 68,88 74,78 44,16 69,72 56,88 39 56,24 72,09 92,07 74,62 49,64 57,72 62,25 73,87 87,36 74,82 69,52 44,1 83,66 1288,95

La estimacin del cambio relativo R en el valor catastral desde hace dos aos se obtiene mediante el estimador de razn siguiente:
=X =x= R y Y

x y
i =1 i =1 n

164,7 = 1,07 154,5

n n n 2 + R 2 < 2R = 1< f u X 2 + R 2 Y 2 < 2R X Y R = 1< f u S 2S S V x y xy i i i i Y 2 n(n < 1) Y 2n i i i

()

Como Y 2 no se conoce, se estima mediante y 2 . Tenemos:


R = V

()

1 < 20 / 100 u 1373,71 + 1,07 2 (1210,55) < 2(1,07)1288,95 = 0,0001 . (154,5 / 20) 2 ( 20)(19)

Muestreo por mtodos indirectos. Razn, regresin y diferencia

263

= V R = 0,0001 = 0,01 . R Por tanto, el error de muestreo es m

()

()

El error relativo de muestreo ser:


0,01 R v R =m C = = 0,0093 5 1% 1,07 R

() ()

Como el cambio relativo del valor catastral de los inmuebles se ha estimado en 1,07, la subida en los dos ltimos aos se estima que es del 7%, con un error del 1%.

6.6.

Una compaa desea estimar la cantidad promedio de dinero +x pagado a los empleados por gastos mdicos durante los tres primeros meses del ao en curso. Los resultados del promedio por trimestres +y estn disponibles en los informes fiscales del ao anterior. Una muestra aleatoria de 100 registros de empleados se seleccion de una poblacin de 1000 empleados. Los resultados de la muestra se resumen a continuacin: n = 100, N = 1000 Total para el trimestre actual:

x
i =1

100

= 1750

Total para el trimestre correspondiente del ao anterior:

y
i =1

100

= 1200
1000

Total poblacional para el trimestre correspondiente del ao anterior


100 100 100

y
i =1

= 12500

xi2 = 31650
i =1

yi2 = 15620
i =1

y x
i =1 i

= 22059,35 .

Usar los datos para estimar +y y establecer un lmite para el error de estimacin. Como tenemos informacin de una variable auxiliar Y, la utilizaremos para realizar una estimacin indirecta de X basada en la razn de X a Y. Tenemos:

= x = xY =R Y = X R R y

x y
i =1 i =1 100

100

12500 1750 12500 = = 18,23 1000 1200 1000

El error para la estimacin anterior se estima mediante:


n n n 1< f 2 2 2 = 1< f X 2 + R S 2 Y 2 < 2R (X S x + R S y < 2R V X i Yi xy R) = i i n n( n < 1) i i i

264 Muestreo estadstico. Conceptos y problemas resueltos

100 1000 31650 + 1750 15620 < 2 1750 22059,35 = 0,0441 ( x )= V R 100(100 < 1) 1200 1200 1<

( x ) = 0,42. Un lmite para el error de estimacin al 95% ser 2 V R


Hemos estimado que la cantidad promedio de dinero pagado a los empleados por gastos mdicos es 18,23 unidades monetarias y tenemos una confianza alta de que el error cometido no supera las 0,42 unidades monetarias.

6.7.

Se trata de realizar un estudio sobre las granjas de cerdos en una determinada comarca analizando una muestra obtenida en 10 municipios. Para ello se estratifica la comarca en dos zonas, una de secano y otra de regado. En cada zona se mide el nmero de granjas existente (variable X) y el nmero de cerdos (variable Y) por municipios muestrales. Se obtienen los siguientes datos:

Zona Fraccin de muestreo Nmero de granjas Municipio muestral X Y


Se pide:

Secano 10% 71 1 2 3 4 1 3 2 1

Regado 20% 182 1 2 3 4 5 6 5 8 6 7 6 5

10 25 22 11 55 90 61 77 66 51

1) Estimar de la forma ms eficiente posible el nmero total de cerdos y el promedio de cerdos por granja en el supuesto de que la seleccin de los municipios de la muestra haya sido con reposicin. Razonar la eleccin de los estimadores. 2) Hallar el tamao muestral necesario para cometer un error del 10% al estimar el nmero total de cerdos mediante muestreo estratificado con afijacin proporcional al nmero de granjas existentes en cada municipio y realizar la afijacin. Sean: Xih= Nmero de granjas de cerdos existentes en el municipio muestral i-simo del estrato hsimo. Yih= Nmero de cerdos existentes en el conjunto de explotaciones ganaderas del municipio muestral i-simo del estrato h-simo. Tenemos:

f1 =

n1 4 0,1 = N 1 = 40 N1 N1

f2 =

n2 6 0,2 = N 2 = 30 N2 N2

Muestreo por mtodos indirectos. Razn, regresin y diferencia

265

Vamos a estimar el nmero total de cerdos en las granjas y sus errores absoluto y relativo de muestreo mediante muestreo estratificado como sigue:

= N y =N y + N y = 40 10 + 25 + 22 + 11 + 30 55 + 90 + 61 + 77 + 66 + 51 = 2780 Y h h 1 1 2 2 4 6 h =1
2

(Y ) = N 2 V h
h =1

2 S yh nh

= 40 2

2 S y1 4

+ 30 2

2 S y2 6

= 40 2

7.61 30,15 + 30 2 = 7566,5 4 6

2 = S yh

1 nh Yhi < yh nh < 1 i =1

2 S y1 = 7,61 (Y ) = 7566,5 = 87 m (Y ) = V 2 S y 2 = 30,15

) (Y 87 v(Y ) = m C = = 2780 Y

6357,67 = 0,0312 (3,12%) 2780

Para estimar el promedio de cerdos por explotacin ganadera utilizamos el estimador de razn de Y a X (tambin puede usarse razn separada o combinada).

= Y = R X

N N
h =1 h =1 2

yh xh

2780 2780 = = 10,9 1+ 2 + 3 +1 5+8+6+7+6+5 255 + 30 40 4 6

Tomaremos 11 cabezas de ganado en promedio por cada explotacin ganadera.

1 2 + R 2 < 2R )= 2S (R ) = 1 (S S V 795,51+ 112 u 6,26 < 2 u11u 70,2 = 0,004426 y x xy 2 2 nx 10(4,4)

) (R v( R ) = m = C R

0,004426 = 0,006 (0,6%) 11

El muestral para afijacin proporcional con reposicin para un error relativo del 5% al estimar el total de cabezas de ganado se halla despejando n en la expresin:
2 2 Nh S yh N 2 253 2 h=1 n Nh S (71u 7,61 + 182 u 30,15) N yh h n n N h=1 v(Y ) = m (Y ) = = = n 20 0,1 = C 2780 2780 2780 Y 2

La afijacin ser n1 = (20/253)71 = 6 y n2 = (20/253)182 = 14 (6 municipios del estrato 1 y 14 municipios el estrato 2).

266 Muestreo estadstico. Conceptos y problemas resueltos

6.8.

Se trata de estudiar el ganado ovino en una determinada comarca en la que existen seis majadas. Para ello se estratifica la comarca en dos zonas, una de secano a la que corresponden tres majadas y otra de regado a la que corresponden las otras tres majadas. En cada majada se mide el nmero de ovejas (variable X) y su superficie en unidades cuadradas (variable Y), y se obtienen los siguientes datos:

Estrato 1 Estrato 2 X 1i Y1i X 2i Y2i 2 4 5 1 2 3 5 7 12 4 5 6

A la vista de la informacin, analizar la precisin de todos los mtodos indirectos de estimacin que se utilizan en estratificacin cuando se trata de estimar el nmero medio de ovejas por majada utilizando la informacin adicional de la variable auxiliar Y. Razonar adecuadamente los resultados. Contrastar tambin estos resultados con las precisiones obtenidas considerando mtodos de estimacin indirecta sin estratificacin. Emplear tambin mtodos directos de estimacin para la variable en estudio sin utilizar la variable de apoyo. Los mtodos de estimacin indirecta son perfectamente aplicables en este caso porque el coeficiente de correlacin entre la variable en estudio X y la variable auxiliar Y es muy alto (0,9). A partir de los datos del problema se puede construir la siguiente tabla:

Estrato 1 2

2 2 N h Wh S xh S yh X h Yh 3 1 / 2 7 / 3 1 11 / 3 2 3 1 / 2 13 1 8 5

S xyh f h nh 3/ 2 2/3 2 7/2 2/3 2

A continuacin se calculan las varianzas del estimador de la media para los distintos mtodos de estimacin directos e indirectos y estratificados y sin estratificar.
S x2 = 0,98 n 2 S2 Estratific ado A V2 ( x ) = Wh2 (1 < f h ) xh = 0,63 nh h =1 Aleatorio simple A V1 ( x ) = (1 < f ) (1 < f ) 2 (S x + R 2 S y2 < 2 RS xy ) = 0,151296 n 2 (1 < f h ) 2 2 (S xh + Rh2 S yh Razn separada A V4 ( x ) = Wh2 < 2 Rh S xyh ) = 0,189 n h =1 2 (1 < f h ) 2 2 (S xh + R 2 S yh Razn combinada A V5 ( x ) = Wh2 < 2 RS xyh ) = 0,1759 n h =1 S2 Regresin A V6 ( x ) = (1 < f ) x (1 < l 2 ) = 0,15119 n Razn A V3 ( x ) =

Muestreo por mtodos indirectos. Razn, regresin y diferencia

267

(1 < f h ) 2 2 (S xh + ` h2 S yh < 2 ` h S xyh ) = 0,0347 n h =1 2 (1 < f h ) 2 2 Regresin combinada A V8 ( x ) = Wh2 S xh + ` c2 S yh < 2 ` c S xyh = 0,118 n h =1 (1 < f ) 2 (S x + S y2 < 2S xy ) = 0,28833 Diferencia A V9 ( x ) = n Regresin separada A V7 ( x ) = Wh2
2

En cuanto a los mtodos no estratificados, se observa que la estimacin ptima la produce el mtodo indirecto basado en la regresin, resultado que siempre se cumple. El siguiente mtodo en precisin es la estimacin indirecta por razn, que presenta una precisin muy similar a la estimacin por regresin (apenas un 0,07% de ganancia en precisin para regresin). La estimacin indirecta por diferencia tambin es aceptable, aunque es el mtodo de estimacin indirecta menos preciso en este caso. Por otra parte, el muestreo aleatorio simple presenta una precisin muy inferior a cualquier mtodo indirecto. Ello nos lleva a concluir que en este problema es importante la consideracin de los mtodos indirectos de estimacin. Si analizamos la recta de regresin de la variable en estudio X respecto de la variable auxiliar Y, que tiene de ecuacin x = 1,6y < 0,06, vemos que prcticamente pasa por el origen, razn por la cual el estimador por razn es muy preciso. Adems, la pendiente de la recta no est lejos de la unidad, con lo que la estimacin indirecta por diferencia puede resultar tambin apropiada. Por otra parte se cumple:
1 S 0,9 = l > R y = 0,45 2 Sx

lo que indica que el muestreo aleatorio simple va a ser bastante menos preciso que el mtodo de estimacin por razn. Al introducir la estratificacin se obtiene buena mejora en la estimacin indirecta por regresin separada y no tanto en la combinada (que ya sabemos que siempre es peor que la separada). En cuanto a la estratificacin por razn, se obtienen peores precisiones que cuando se usa razn sin estratificar. Por lo tanto, la estimacin estratificada basada en la razn no es conveniente. De todas formas, la estimacin por razn combinada resulta aqu ms precisa que la estimacin por razn separada.

268 Muestreo estadstico. Conceptos y problemas resueltos

6.9.

Antes del ingreso en un centro educativo se hizo un examen de conocimientos matemticos a 486 estudiantes. Se seleccion una muestra irrestricta aleatoria de n = 10 estudiantes y se observaron sus progresos en clculo mediante una prueba de conocimientos cuyas calificaciones constituyen la variable Y. Ms adelante se observaron sus calificaciones finales en clculo mediante la variable X. Los datos se recogen en la tabla siguiente:
Estudiante 1 2 3 4 5 6 7 8 9 10

x
39 43 21 64 57 47 28 75 34 52

y
65 78 52 82 92 89 73 98 56 75

Se sabe que la calificacin media de la prueba de conocimientos para los 486 estudiantes que presentaron el examen es 52. Estimar la calificacin final media en clculo para esta poblacin, y establecer un lmite para el error de estimacin. A fin de aprovechar la informacin adicional de la variable Y, para estimar la media de X utilizaremos el mtodo de estimacin indirecta ms preciso, que es el estimador por regresin. Podemos resumir las estimaciones por regresin como sigue:

x rg = x + bo (Y < y )
Del enunciado del problema sabemos que Y = 52, y de los datos de la tabla se deduce que x = 76 e y = 46. Para calcular el estimador por regresin slo nos faltara estimar bo . Tenemos:

=` = S XY = b 0 2 S Y

( X i < x )(Yi < y ) X iYi < nxy


i

n i

(Y
i

< y)

Y
i

< ny 2

36,854 < 10(46)(76) = 0,766 23,634 < 10(46) 2

El estimador por regresin ser entonces:

x rg = x + bo (Y < y ) = 76 + 0,766(52 < 46) = 80


(x ) = La varianzas mnima estimada ser V min rg

(1 < f ) u S 2 (1 < l 2 ) = 7, 4
n
x

y el

( x ) = 5,4 . lmite para el error de estimacin al 95% es 2 V min rg

Muestreo por mtodos indirectos. Razn, regresin y diferencia

269

6.10.

Los auditores frecuentemente estn interesados en comparar el valor intervenido de los artculos con el valor asentado en los libros. Generalmente, los valores en los libros son conocidos para cada artculo en la poblacin, y los valores intervenidos son obtenidos con una muestra de esos artculos. Los valores en el libro entonces pueden utilizarse para obtener una buena estimacin del valor intervenido total o promedio para la poblacin. Supngase que una poblacin contiene 180 artculos inventariados con un valor establecido en el libro de $13,320. Denotar por yi el valor en el libro y por xi el valor intervenido del i-simo artculo. Una muestra irrestricta aleatoria de n = 10 artculos produce los resultados que se muestran en la tabla adjunta. Estimar el valor intervenido medio por el mtodo de diferencia as como el error cometido. Realizar las mismas estimaciones pero usando un estimador de regresin y un estimador de razn.
Muestra 1 2 3 4 5 6 7 8 9 10

Valor intervenido Valor en el libro xi yi


9 14 7 29 45 109 40 238 60 170 10 12 8 26 47 112 36 240 59 167

di
-1 2 -1 3 -2 -3 4 -2 1 3

La estimacin por diferencia se realiza de la siguiente forma:


= x < y +Y = D + Y = (72,1-71,7) + 74 = 74,4 X

La estimacin de la varianza viene dada por:

) = 1< f S 2 + S 2 < 2S = 0,59 (X V x y xy n


La estimacin por regresin se realiza de la siguiente forma:

x rg = x + bo (Y < y ) = 72,1 + 0,99(74 < 71,7) = 74,38

= b 0

( X i < x )(Yi < y ) X iYi < nxy


i

n i

(Y
i

< y)

Y
i

< ny 2

105,881 < 10(71,7)(72,1) = 0,99 106,003 < 10(71,7) 2

270 Muestreo estadstico. Conceptos y problemas resueltos

2 1< l ( x ) = (1 < f ) u S 2 = 2,24 . La varianzas mnima estimada ser V min rg x n

La estimacin por regresin se realiza de la siguiente forma:


=x = xY =R Y = 721 74 = 74,41 X R R y 717

La varianza puede estimarse como sigue:


1< f 2 2 2 = 1< f S (X S x + R S y < 2R V xy R) = n

n n 2 2 n 2 X Y = 0,66 X + R Y < 2 R i i i i n(n < 1) i i i

Muestreo por mtodos indirectos. Razn, regresin y diferencia

271

EJERCICIOS PROPUESTOS
6.1.
Sobre una poblacin de 500 unidades est definida un caracterstica bidimensional ( Xi,Yi). Una muestra aleatoria simple de tamao 80 proporciona los siguientes datos:

X i = 420
i =1

80

Yi = 190
i =1

80

X i2 = 2284
i =1

80

Yi 2 = 512
i =1

80

X Y
i =1

80

i i

= 1045

a) Estimar el sesgo y el error de muestreo de la razn de la variable Y a la variable X. Se trata de un sesgo influyente para estimaciones indirectas basadas en la razn? b) Se trata de estimar con y sin reposicin la media y el total de Y utilizando la informacin adicional de la variable X mediante un mtodo de estimacin indirecta. Qu mtodo indirecto sera el ms adecuado? Por qu? Realizar las estimaciones de media y total mediante los mtodos indirectos conocidos ordenndolos en precisin y sabiendo que el total de X es 10000. c) Habr ganancia en precisin respecto del muestreo aleatorio simple? Cuantificarla.

6.2.

Una empresa est interesada en estimar el total de ganancias por las ventas de televisiones de color al final de un perodo de tres meses (variable Y). Se tienen cifras del total de ganancias de todas las sucursales de la empresa para el perodo de tres meses correspondiente del ao anterior (variable X). Se selecciona una muestra irrestricta aleatoria de 13 sucursales de entre las 123 de la empresa. Usando un estimador de razn, estimar el total de ganancias por las ventas de televisiones de color al final de un perodo de tres meses y establecer un lmite para el error de estimacin. Usar los datos de la tabla adjunta, y considerar que la media poblacional de la variable X vale 128,200.
Oficina 1 2 3 4 5 6 7 8 9 10 11 12 13 Datos de tres meses del ao anterior, Xi 550 720 1500 1020 620 980 928 1200 1350 1750 670 729 1530 Datos de tres meses del ao actual, Yi 610 780 1600 1030 600 1050 977 1440 1570 2210 980 865 1710

Estimar tambin las ganancias medias para las oficinas de la empresa y establecer un lmite para el error de estimacin.

272 Muestreo estadstico. Conceptos y problemas resueltos

6.3.

Una empresa industrial elabora un producto que es empaquetado, para propsitos de mercado, en dos marcas comerciales. Estas dos marcas sirven como estratos para estimar el volumen potencial de ventas para el trimestre siguiente. Una muestra irrestricta aleatoria de clientes para cada marca es entrevistada para proporcionar una cantidad potencial Y de ventas (en nmero de unidades) para el prximo trimestre. La cifra de las ventas verdaderas del ao pasado, para el mismo trimestre, est disponible para cada uno de los clientes muestreados y se denota por X. Los datos se presentan en la tabla anexa. La muestra para la marca I fue tomada de una lista de 120 clientes, para quienes el total de ventas en el mismo trimestre del ao pasado fue de 24500 unidades. La muestra de la marca II viene de 180 clientes, con un total trimestral de ventas para el ao pasado de 21000 unidades. Hallar una estimacin de razn del total potencial de ventas para el prximo trimestre. Estime la varianza de su estimador.
Marca I Xi 204 143 82 256 275 198 Yi 210 160 75 280 300 190 Marca II Xi 137 189 119 63 103 107 159 63 87 Yi 150 200 125 60 110 100 180 75 90

6.4.

Se estima el ingreso nacional para 1981 mediante una muestra de n = 10 industrias que declaran sus ingresos de 1981 antes que las 35 restantes. Se dispone de los datos del ingreso de 1980 para las 45 industrias y los totales son 2174,2 (en miles de millones). Los datos se presentan en la tabla adjunta.
Industria Productos de fbricas textiles Productos qumicos y relacionados Madera aserrada y lea Equipo elctrico y electrnico Vehculos automotores y equipo Transporte y almacenaje Banca Bienes races Servicios de salud Servicios de educacin 1980 13,6 37,7 15,2 48,4 19,6 33,5 44,4 198,3 99,2 15,4 1981 14,5 42,7 15,1 53,6 25,4 35,9 48,5 221,2 114 17

a) Hallar un estimador de razn del ingreso total de 1981, y establecer un lmite para el error de estimacin. b) Hallar un estimador de regresin del ingreso total de 1981, y establecer un lmite para el error de estimacin. c) hallar un estimador de diferencia del ingreso total de 1981, y establecer un lmite para el error de estimacin. d) Cul de los tres mtodos es el ms apropiado en este caso? Por qu?

CAPTULO MUESTREO UNIETPICO DE CONGLOMERADOS

OBJETIVOS
1. Presentar el concepto de muestreo unietpico de conglomerados. 2. Analizar los estimadores y sus errores en muestreo unietpico de conglomerados del mismo tamao y con probabilidades iguales. 3. Analizar los errores y su estimacin en funcin del coeficiente de correlacin intraconglomerados. 4. Analizar los estimadores y sus errores cuando se considera muestreo unietpico de conglomerados con reposicin. 5. Estudiar el muestreo unietpico de conglomerados de distinto tamao y probabilidades iguales con y sin reposicin. 6. Estudiar el muestreo unietpico de conglomerados de distinto tamao y probabilidades desiguales con y sin reposicin. 7. Estudiar el muestreo unietpico de conglomerados de distinto tamao y probabilidades proporcionales al tamao con y sin reposicin. 8. Estudiar el problema del tamao de la muestra.

274 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo unietpico de conglomerados. Estimadores para conglomerados del mismo tamao y probabilidades iguales. 2. Varianza de los estimadores. Coeficiente de correlacin intraconglomerados. Estimacin de varianzas. 3. Muestreo de conglomerados del mismo tamao con reposicin. Varianzas de los estimadores y estimacin de las varianzas. 4. Muestreo unietpico de conglomerados de distinto tamao. 5. Muestreo unietpico de conglomerados de distinto tamao con probabilidades desiguales. 6. Tamao de la muestra. 7. Problemas resueltos. 8. Ejercicios propuestos.

Muestreo unietpico de conglomerados

275

MUESTREO UNIETPICO DE CONGLOMERADOS. ESTIMADORES PARA CONGLOMERADOS DEL MISMO TAMAO Y PROBABILIDADES IGUALES
Tanto en el muestreo aleatorio simple con reposicin como sin reposicin, as como en el muestreo estratificado, sistemtico y mtodos indirectos de estimacin, las unidades de muestreo son las mismas que las unidades objeto de estudio (unidades simples o elementales), pero en la prctica nos encontramos con situaciones ms generales en las que las unidades de muestreo comprenden dos o ms unidades de estudio. En tal caso a las unidades de muestreo se las denomina unidades primarias o compuestas. En el muestreo por conglomerados no se necesita un marco muy especfico como en el caso del muestreo aleatorio simple en el que era necesario disponer de un listado de unidades de la poblacin, o como en el muestreo estratificado, donde era necesario disponer de listados de unidades por estratos. Se divide previamente al muestreo la poblacin en conglomerados o reas convenientes, de las cuales se selecciona un cierto nmero para la muestra, con lo que slo es necesario un marco de conglomerados que ser ms fcil de conseguir y ms barato. Se pueden utilizar como marco divisiones territoriales ya establecidas por necesidades administrativas para las cuales existe ya informacin. Tambin se pueden utilizar como marco reas geogrficas cuyas caractersticas estn ya muy delimitadas. Est claro que se ahorra coste y tiempo al efectuar visitas a las unidades seleccionadas. Adems, la concentracin de unidades disminuye la necesidad de desplazamientos. Por otro lado, en el muestreo por conglomerados solemos tener menor precisin en las estimaciones, debido a que, aunque lo ideal es que haya heterogeneidad dentro, siempre va a existir un cierto grado de homogeneidad inevitable dentro de los conglomerados que disminuir la precisin. La eficiencia de este tipo de muestreo disminuye al aumentar el tamao de los conglomerados, cuando en realidad este tipo de muestreo es ms til en caso de poblaciones muy numerosas en las que se puedan construir conglomerados grandes. Consideramos una poblacin finita con M unidades elementales o ltimas agrupadas en N unidades mayores llamadas conglomerados o unidades primarias, de tal forma que no existan solapamientos entre los conglomerados y que stos contengan en todo caso a la poblacin en estudio. Consideramos como unidad de muestreo el conglomerado, y extraemos de la poblacin una muestra de n conglomerados a partir de la cual estimaremos los parmetros poblacionales. El nmero de unidades elementales de un conglomerado se denomina tamao del conglomerado. Los conglomerados pueden ser de igual o de distinto tamao, y han de ser lo ms heterogneos posible dentro de ellos y lo ms homogneos posible entre ellos, de tal forma que la situacin ideal sera que un nico conglomerado pudiese representar fielmente a la poblacin (muestra de tamao uno con mnimo coste). Se observa que la situacin ahora es la complementaria a la del caso de los estratos estudiados anteriormente. Vamos a suponer ahora probabilidades iguales y que todos los conglomerados son del mismo tamao M , en cuyo caso utilizaremos la siguiente notacin: N: Nmero de conglomerados en la poblacin N: Nmero de conglomerados en la muestra M : Nmero de unidades elementales por conglomerado (tamao del conglomerado) N M : Nmero total de unidades elementales en la poblacin n M : Nmero total de unidades elementales en la muestra

276 Muestreo estadstico. Conceptos y problemas resueltos


N i N i M i

Consideraremos la caracterstica poblacional general e = Yi = Yij

que,

suponiendo muestreo sin reposicin y probabilidades iguales, puede ser estimada mediante
Y = el estimador lineal insesgado de Horwitz y Thompson e i = HT
n i n i

Y
i

ij

/i

n/ N

N n

Y
i i

ij

La aplicacin del estimador lineal insesgado de Horwitz y Thompson para probabilidades iguales a las estimaciones del total, media, proporcin y total de clase poblacionales, proporciona los siguientes estimadores:

N n M NM n 1 M 1 n X X = N M = ij n ij X i =NMx n i j n i i j i M j n M X X ij 1 N M 1 n 1 M 1 n ij =N X Y X X = X i =x e=X = = = ij ij NM ij n n i j NM n i M j NM i j i n M n M n Aij A 1 N M = N ij = 1 1 A = 1 P Aij Yij = e =P= P ij i n i j NM n i M j n i NM i j NM = e = X = X ij Yij = X ij X


N M

= e = A = Aij Yij = Aij A


i j

N n M NM Aij = n n i j

1 i M
n

Aij = NM
j

1 n Pi =NMP n i

VARIANZAS DE LOS ESTIMADORES. COEFICIENTE DE CORRELACIN INTRACONGLOMERADOS. ESTIMACIN DE LAS VARIANZAS


Las expresiones iniciales para las varianzas de los estimadores sin reposicin y probabilidades iguales para conglomerados del mismo tamao son:
S b2 nM

V (x ) = (1 < f ) u

con S b2 =

(X
i j

< X)

N <1

2 = V (NM u x ) = N 2 M 2 u V (x ) = N 2 M 2 u (1 < f ) u S b V X nM

( )

N M N 2 2 Pi < P ) Pi < P) ( ( $ ) = (1 < f ) u N < 1 i V( P = (1 < f ) i nM n( N < 1)

$ ) = V ( NM u P $ ) = N 2 M 2V ( P $ ) = N 2 M 2 u (1 < f ) V(A

( P < P)
i i

n( N < 1)

Las expresiones de las varianzas son similares a las obtenidas en el muestreo aleatorio simple, sustituyendo S2 por S b2 y siendo nM el nmero total de unidades elementales en la muestra.

Muestreo unietpico de conglomerados

277

Pero las varianzas anteriores pueden expresarse en funcin del coeficiente de correlacin intraconglomerados, que se define como el coeficiente de correlacin lineal entre todos los pares de valores de la variable en estudio medidos sobre las unidades de los conglomerados y extendido a todos los conglomerados, de tal forma que dicho coeficiente ser una <<medida de la homogeneidad>> en el interior de los conglomerados. Evidentemente interesar que el coeficiente de homogeneidad intraconglomerados sea lo ms pequeo posible, ya que en muestreo por conglomerados lo ideal es la heterogeneidad dentro de los conglomerados. La expresin del coeficiente de correlacin intraconglomerados ser:
N M 1 ( X ij < X )( X iz < X ) M i =1 j < z N 2

b=

Cov( X ij , X iz )

m ( X ij )m ( X iz )
2

E ( X ij < E ( X ij ))( X iz < E ( X iz ))

]=

m2

N M 1 (X ij < X ) y m 2 = 1 de donde al ser S = NM NM < 1 i j & l

(X
i j &l

ij

< X ) se puede expresar

N u M <1 2 S , expresin que puede sustituirse en el denominador del N uM coeficiente de correlacin intraconglomerados:

la varianza como m 2 =

N M 1 ( X ij < X )( X iz < X ) N M M i =1 j < z N 2 ( X ij < X )( X iz < X ) 2 i =1 j < z = b= (M < 1)(NM < 1)S 2 N u M <1 2 S N uM

Este coeficiente se puede estimar mediante b$ =

$2 < S $2 S b $ ( M < 1) S

$2 = S

n M n M n M 2 1 1 $2 = $ 2 = 1 ( X < x ) 2 X ij < x , S , X X S < w ij i b i nM < 1 i j & l nM < n i j n <1 i j

2 = N <1 u S 2 + N (M < 1) u S 2 S 0 b w NM < 1 NM < 1

2 = n <1 u S 2 + n(M < 1) u S 2 S b w nM < 1 nM < 1

Los errores de estos estimadores y sus estimaciones en funcin de l son:


2 S2 (x ) = (1 < f ) S 0 1 + (M < 1)b 1 + (M < 1)b V nM nM 2 S2 (x ) = (1 < f ) S b V (x ) = (1 < f ) b V nM nM 2 2 ) = N 2 M 2V (x ) V ( X ) = V ( NM x ) = N M V ( x ) V ( X V (x ) = (1 < f )

278 Muestreo estadstico. Conceptos y problemas resueltos

El clculo de los trminos de las frmulas anteriores los facilitan los cuadros del anlisis de la varianza para la poblacin y para la muestra siguientes: Descomposicin de la varianza para la poblacin
Fuente de variacin Entre conglomerados Dentro de conglomerados Total Grados de libertad Sumas de cuadrados Cuadrados medios

N<1
n M <1
NM < 1

(X
N i M j

<X

Sb2
2

(X
N i M j

ij

< Xi
<X

)
2

2 Sw

(X
N i M j

ij

Descomposicin de la varianza para la muestra


Fuente de variacin Grados de libertad Sumas de cuadrados Cuadrados medios Esperanzas Entre conglomerados Dentro de conglom.

n<1
n M <1
nM < 1

(X
i j

<x

2 S b

Sb2
2 Sw

)
n i

(X
i j

ij

< Xi

2 S w
2 S

Total

(X
j

ij

<x

Para el caso de proporciones y totales de clase las frmulas son las mismas, pero las magnitudes se obtienen del cuadro del anlisis de la varianza siguiente:
Fuentede Gradosde Variacin Entre Libertad N <1 Sumade Cuadrados A = M ( Pi < P) 2
i =1 N N

Cuadrados Medios S b2 =
2 = Sw

Estimadores Insesgados 1 n < M ( P Pi ) 2 i n 2 = = 1 1 i i = S b n <1


N

A N <1

Dentro Total

N ( M < 1) NM < 1

B = MPi (1 < Pi )
i =1

C = NMP (1 < P)

B N ( M < 1) C S2 = NM < 1

2 = S w

MP (1 < P )
i =1 i i

n( M < 1) 2 S
0

Comparacin con el muestreo aleatorio simple


De la expresin V ( x ) = ( 1 < f )
S2 [1 + ( M < 1) u b ] = V MAS ( x )[1 + ( M < 1) u b ] se deduce que nM para valores positivos de b existe un aumento en la varianza del muestreo por conglomerados con relacin al muestreo aleatorio simple y muestras de tamao igual a n u M unidades elementales.

Muestreo unietpico de conglomerados

279

El caso ms desfavorable (varianza mxima) correspondera a b = + 1 y el ms favorable (varianza mnima) a b = <

1 , en que la varianza sera igual a cero. Para b = 0 ambos M <1

mtodos proporcionaran la misma precisin. El trmino M < 1 expresa el aumento de la varianza debido a la seleccin de n conglomerados de tamao M en lugar de n M unidades elementales obtenidas por muestreo aleatorio simple. Ahora bien, si el coeficiente de correlacin intraconglomerados fuese negativo, ello supondra mayor precisin en el muestreo por conglomerados que en el aleatorio simple. Pero en la prctica suele ocurrir que los elementos de cada conglomerado tienen cierto parecido entre s aunque se intente que sean lo ms heterogneos posible, con lo cual la correlacin es positiva y menor la precisin en el muestreo por conglomerados que en el aleatorio simple. Este problema ya se haba citado al principio del captulo como una de las desventajas del muestreo por conglomerados. Segn lo visto, la comparacin entre muestreo monoetpico de conglomerados y muestreo aleatorio simple podra resumirse como sigue:
Sib > 0 conglomera dos peor que aleatorio simple V MC (x ) = V MAS ( x ) u 1 + (M < 1) u b Sib = 0 conglomera dos igual que aleatorio simple Sib < 0 conglomera dos mejor que aleatorio simple

Evidentemente, cuando b D (0,1] la precisin del muestreo por conglomerados es inferior a la del muestreo aleatorio simple, y a medida que el b se aproxima a 1, se acenta la prdida de precisin en el muestreo por conglomerados respecto del aleatorio simple. Cuando b = 0, las precisiones de ambos mtodos coinciden, y cuando b D < ,0 , la M <1 precisin del muestreo por conglomerados es superior a la del muestreo aleatorio simple y a medida que el b se aproxima a <

1 , se acenta la ganancia en precisin del muestreo M <1

por conglomerados respecto del aleatorio simple. Por otra parte, si llamamos na al tamao de muestra necesario en muestreo aleatorio simple para obtener una precisin dada, y si llamamos nc al tamao de muestra en muestreo por conglomerados, resulta que si los dos tipos de muestreo tienen la misma precisin, S2 S2 (1 < f ) = (1 < f ) (1 + ( M < 1)b ) nc = na (1 + ( M < 1)b ) . na nc Precisamente la cantidad 1 + ( M < 1) u b por la que hay que multiplicar el tamao de una muestra por conglomerados nc para que coincida con el tamao de muestra necesario en muestreo aleatorio simple na para igual precisin en ambos tipos de muestreo, se denomina efecto del diseo.

280 Muestreo estadstico. Conceptos y problemas resueltos

MUESTREO DE CONGLOMERADOS DEL MISMO TAMAO CON REPOSICIN. VARIANZAS DE LOS ESTIMADORES Y ESTIMACIN DE LAS VARIANZAS
En caso de muestro con reposicin, probabilidades iguales y conglomerados del mismo tamao, los estimadores son los mismos, y las varianzas tienen las siguientes expresiones:
1 N M X i < X Vx = N i nM

()
N i

mb2
nM

mb2 =

1 N

M( Xi < X ) =
2 i

1 N

( X
j

< X ) es la cuasivarianza entre conglomerados


2

y la expresin de la varianza de la media V ( x ) =

mb2
nM

es similar a la obtenida en el muestreo

aleatorio simple, sustituyendo m2 por mb2 y siendo nM el nmero total de unidades elementales en la muestra.

mb2 2 2 2 2 $ V ( X ) = V ( NM u x ) = N M u V ( x ) = N M nM
$) = V( P

mb2
nM

M N

( P < P)
i i

nM

( P < P)
i i

nN

$ ) = V ( NM u P $ ) = N 2 M 2V ( P $) = N 2 M 2 V(A

( P < P)
i i

nN

La varianzas de los estimadores y sus estimaciones en funcin del coeficiente de correlacin intraconglomerados tienen las siguientes expresiones:

V (x ) =

' ], V (x ) = m V (x ) = m (x ) = S [ [ 1 + (M < 1)b ] V 1 + (M < 1)b nM nM nM nM

m2

2 b

2
b

) = V ( NM x ) = N 2 M 2V ( x ) V (X ) = N 2 M 2V (x) V (X

El coeficiente de correlacin intraconglomerados y su estimacin son:

b=

m b2 < m 2 (M < 1)m 2

2 + '2 = S m 1, w

2 n M 2 S 1 N M 1 n M 2 2 b 2 2 2 = 1 $ ( ) , S , , X < X S Xi < x ) = < = m X X ( 1, w ij i w ij i b n <1 i j NM i j M nM i j

$2 2 S 2 $ $ S b < S 1w + b $2 <m M $' 2 S b b$ = = $ 2 ( M < 1)m $' 2 2 S b $ ( M < 1) S1w + M

Muestreo unietpico de conglomerados

281

Si estimamos proporciones y totales de clase utilizaremos lo siguiente:

m2 =
2 mw =

NM < 1 2 NM < 1 NMP (1 < P ) NMP (1 < P ) S = = = P (1 < P ) NM NM NM < 1 NM


1 NM 1 N
N i

(X
N i M j M j i

ij

< Xi ) =
2

1 NM

M (P < P )
i i i

1 N

(P < P )
i i

m b2 =

(X

< X) =
2

M N

(X
N i

< X) .
2

2 = b2 = S m b

M n (Pi < P )2 n <1 i

2 2 = w m =S 1, w

1 nM

(X
n i M j

ij

< Xi ) =
2

1 nM

MPi (1 < Pi ) =
i =1

1 n Pi (1 < Pi ) n i =1

$2 1 n n S 2 $ $ ' = S1,w + b = Pi (1 < Pi ) + M (Pi < P )2 m M n i =1 n <1 i


2

MUESTREO UNIETPICO DE CONGLOMERADOS DE DISTINTO TAMAO Probabilidades iguales


a) Los conglomerados no varan mucho en tamao (Mi similares) Consideraramos M =

M
i =1

Mi

como la media de los tamaos Mi de los conglomerados y

utilizamos todas las frmulas estudiadas hasta ahora, tanto para muestreo con reposicin como para muestreo sin reposicin. No obstante, suelen considerarse las siguientes expresiones alternativas para los estimadores: Muestreo sin reposicin Para la media se tiene
x= X 1 1 1 Xi = i = n i =1 n i =1 M nM
n n

X
i =1

, V (x ) =

1< f u nM 2

(X
N i =1

< X)

N <1

(x ) = 1< f , V nM 2

(X
n i =1

< x)

n <1

$ = NMx = NM Para el total se tiene el estimador X


depende de M .

1 nM

Xi =
i =1

N n

X
i =1

, que no

282 Muestreo estadstico. Conceptos y problemas resueltos

Su varianza y estimacin de varianza tampoco dependen de M . Tenemos:


) = N2 1< f u V(X n

(X
N i =1

<X

N <1

(X ) = N 2 1< f , V n

(X
n i =1

< x)

n <1

Muestreo con reposicin Para muestreo con reposicin la varianza y estimacin de varianza para el estimador de la media pueden calcularse como sigue:
1 u nM 2

V (x ) =

(X
N i =1

<X)

(x ) = , V

1 nM 2

(X
n i =1

< x)

n <1

M y pueden calcularse como sigue:


N

La varianza y estimacin de varianza para el estimador del total no dependern de

) = V (X

N u n

(X
i =1

i < X

(X ) = N u , V n

(X
n i =1

< x)

n <1
N

En caso de estimacin de totales y proporciones se utilizan las frmulas ya vistas anteriormente para conglomerados del mismo tamao tomando M =
i =1

Mi , tanto para M

muestreo sin reposicin como para muestreo con reposicin. b) Los conglomerados varan mucho en tamao (Mi no similares y M =

M
i =1

Si los tamaos de los conglomerados son significativamente distintos, un estimador sesgado de la media es el estimador de razn:
=x=R = X

X M
i i n

Muestreo sin reposicin Por ser un estimador de la razn, su varianza aproximada es:
N V ( x ) = (1 < f ) u nM 2
2

M (X
N i 2 i

< X)

N <1
N i

(x ) = V R = (1 < f ) u N V nM 2
n i

()

M (X
n i 2 i

< x)

n <1

Para el estimador del total tendremos: =N V X

( )

M (X (1 < f )
2 i

<X)

N <1

X =N V

( )

M (X (1 < f )
2 i

< x)

n <1

Para el estimador de la proporcin y el total de clase tenemos:

Muestreo unietpico de conglomerados


N i

283

) = (1 < f ) u N V (P nM 2
N i

Mi2 (Pi < P)


N <1
2 i 2 i

(P ) = (1 < f ) u N , V nM 2

M (P < P )
n i 2 i i

n <1
n i 2 i 2 i

=N V A

()

M (P < P ) (1 < f ) n N <1

=N A V

()

M (P < P ) (1 < f ) n n <1

Muestreo con reposicin Por ser un estimador de la razn, su varianza aproximada es:
N V (x ) = nM 2
2

M (X
N i 2 i

< X)

(x ) N , V nM 2

M (X
n i 2 i

<x

n <1

Para el estimador del total tendremos: =N V X n

( )

M (X
N i 2 i

< X)

X =N , V n

( )

M (X
n i 2 i

< x)

n <1

Para el estimador de la proporcin y el total de clase tenemos:


2 ) = N V (P nM 2

M (P < P )
i 2 i i

N
N i 2

2 (P ) = N V nM 2

M (P < P )
n i 2 i i

n <1
n i 2 i 2 i

=N V A n

()

M i2 (Pi < P )
N

=N A , V n

()

M (P < P )
n <1

MUESTREO UNIETPICO DE CONGLOMERADOS DE DISTINTO TAMAO CON PROBABILIDADES DESIGUALES


En este caso se utilizan los estimadores generales de Horvitz Thompson y Hansen Hurweitz. Muestreo sin reposicin Consideramos una poblacin de N conglomerados de tamaos desiguales Mi con M =

M
i =1

En este caso se utilizar el estimador general de Horwitz y Thompson, que proporciona el estimador lineal insesgado para el total definido por:
n n N N X i2 X Xj Xi Mi Xi X HT = = , V ( X HT ) = (1 < / i ) + i (/ ij </ i / j ) i =1

/i

i =1

/i

i =1

/i

i& j

/i / j

2 n n (X ) = X i (1 < / ) + X i X j / ij < / i / j V HT i 2 / ij i =1 / i i& j / i / j

284 Muestreo estadstico. Conceptos y problemas resueltos

Muestreo con reposicin Consideramos una poblacin de N conglomerados de tamaos desiguales Mi con M =
N

M
i =1

. En este caso se utilizar el estimador general de Hansen y Hurwitz, que

proporciona el estimador lineal insesgado para el total definido por:


n n N n Xi Xi = Xi = Mi Xi , V ( X (X ) = 1 ) = 1 X <X <X Pi , V HH HH HH HH nP n i =1 Pi n(n < 1) i =1 Pi i =1 nP i =1 i i
2 2

1 = X ) =V(X )= 1 V HH HH ) V (X (X ) X V ( X ) = 2 V (X HH HH HH HH HH 2 M M M M

Probabilidades proporcionales a los tamaos


Muestreo sin reposicin El estimador lineal insesgado de Horwitz y Thompson para el total ser:
n n n n = X i = M i X i = M i X i = M 1 X = Mx X HT i M /i n i =1 i =1 / i i =1 i =1 n i M

El estimador lineal insesgado de Horwitz y Thompson para la media ser:

Mx = X HT = =x X M M
Se observa que las expresiones de los estimadores lineales insesgados para la media y el total en el caso de probabilidades desiguales proporcionales a los tamaos de los conglomerados coinciden con sus expresiones para probabilidades iguales. Muestreo con reposicin Como siempre, los estimadores son los mismos que para el caso sin reposicin. Las varianzas y su estimacin en el caso de probabilidades proporcionales a los tamaos con reposicin valdrn: 2 n N 2 (X )= M ) = M M (X < X ) , V Xi < x V (X HH HH i i n(n <1) i =1 n i =1

1 V ( X HH ) = nM

(X )= HH M i (X i < X ) , V
2 i =1

2 1 n Xi < x n(n <1) i=1

Las frmulas para proporciones y totales de clase se obtienen sustituyendo X i = Pi , X = P, x = P . Esto es vlido tanto en general como en probabilidades proporcionales a los tamaos, y tanto con reposicin como sin reposicin.

Muestreo unietpico de conglomerados

285

TAMAO DE LA MUESTRA
La peculiaridad en muestreo por conglomerados monoetpico es la forma de la funcin de coste. Si consideramos la funcin de coste C = c o n + c1 n + c 2 u n u M , podemos media V ( x ) . Tambin podemos determinar los pares ( n, M ) que, para V ( x ) prefijada, minimizan la funcin de coste C. El primer trmino c o n de la funcin de coste representa el coste de viaje entre los conglomerados, y se toma as porque se ha demostrado empricamente que el coste de viaje entre n conglomerados vara aproximadamente proporcional a su raz cuadrada. El segundo trmino c1 n de la funcin de coste representa el coste de seleccin de los n conglomerados de la muestra, siendo c1 el coste unitario de seleccin de un conglomerado muestral. El tercer trmino c 2 u n u M representa el coste relativo a las n u M unidades elementales de la muestra, siendo c2 el coste unitario de seleccin de una unidad elemental que suele estar formado principalmente por el coste de entrevista y el coste de desplazamiento entre las unidades elementales dentro del mismo conglomerado. El trmino C = c o n + c 2 u n u M suele denominarse coste de campo. La determinacin de n y M ptimos lleva al planteamiento del problema de Lagrange con una restriccin: determinar los pares ( n, M ) que, para C prefijado, minimizan la varianza del estimador de la

S2 (1 < ( M < 1)b ) MinV ( x ) = Min (1 < f ) nM C = co n + c1 n + c 2 u n u M


El problema alternativo es la determinacin de n y M ptimos mediante el planteamiento del problema de Lagrange con una restriccin:

Min C = Min (co n + c1 n + c 2 u n u M ) S2 (1 < ( M < 1)b ) V ( x ) = (1 < f ) nM


S b2 Tambin se utiliza para la varianza la expresin V ( x ) = (1 < f ) . nM

286 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
7.1.
Se trata de estudiar una poblacin de 1000 cajas de tornillos todas ellas con 40 unidades cada una. Para ello se extrae una muestra sin reposicin de 20 cajas, dentro de la cual nueve cajas no tienen tornillos defectuosos, ocho cajas tienen un tornillo defectuoso, y tres cajas tienen dos tornillos defectuosos. Se pide: 1) Estimar el nmero total de tornillos defectuosos en la poblacin y sus errores absoluto y relativo de muestreo. Realizar la estimacin por intervalos al 99% (F-1(0,995)=2,57). 2) Resolver el problema con reposicin y comparar los resultados con los del punto (a). Tenemos como datos N = 1000, M = 40 y n = 20. El total de piezas defectuosas puede estimarse como sigue:
1 n 1 0 1 2 = NM P = NM A Pi = 40 000 9 + 8 + 3 = 700 20 40 40 40 n i =1 14 44 4 24444 3
= 0 , 0175 P

Para calcular la estimacin de la varianza, se realiza el cuadro del anlisis de la varianza muestral considerando 20 variables, desde L1 a L20, una para cada caja en la muestra. Cada variable tiene tantos unos como tornillos defectuosos hay en la caja. Se elige Anlisis de la varianza de un factor en Anlisis de datos del men Herramientas, y se rellena su pantalla de entrada como se indica en la Figura 7-1. Los resultados se ven en la Figura 7-2. La varianza es:

2 ) = NM 2 V (A (P ) = NM 2 (1 < f ) Sb = 400002 (1 < 20 ) 0,0134 = 26305,26 V nM 1000 800

Figura 7-1

Muestreo unietpico de conglomerados

287

Figura 7-2 El error relativo de muestreo para el estimador del total ser:

v( A ) = V ( A) = C A

26305,26 = 0,2317 (23,17%) 700

La estimacin por intervalos suponiendo normalidad en la poblacin es:

h m A _ ( A) = 700 2,57 26305, 26 = [283, 2, 1116,8]


La estimacin por intervalos sin normalidad en la poblacin es:

) (A 26305,26 m = 700 = [< 921,9, 2321,9] A 0,01 _


Si consideramos muestreo con reposicin, tenemos:

2 ) = (NM )2 V (A (P ) = (NM )2 S b = 26305,26 = 26305,26 = 26842,1 V 20 1< f nM 1< 1000


v( A ) = V ( A) = C A 26842,1 = 0,234 (23,4%) 700

La estimacin por intervalos suponiendo normalidad en la poblacin es:

h m A _ ( A) = 700 2,57 26842 ,1 = [279, 1121]


La estimacin por intervalos sin normalidad en la poblacin es:

288 Muestreo estadstico. Conceptos y problemas resueltos

) (A 26842,1 m = 700 = [< 938,35, 2338,35] A 0,01 _


Se observa que los errores de muestreo estimados son ligeramente superiores en muestreo con reposicin. Adems, como es natural, los intervalos de confianza son ms anchos (o sea, peores) en muestreo con reposicin. La ganancia en precisin es (26842,1 / 26305,26 < 1)100 = 2%, que es una cantidad pequea.

7.2.

En una regin hay 300 granjas de 50 animales diversos cada una. Se obtiene una muestra de n=5 granjas sin reposicin y probabilidades iguales. Las proporciones de animales enfermos en cada una de las granjas son 0,14, 0,20, 0,18, 0,12, 0,16. Se pide: Estimar la proporcin y el total de animales enfermos en la regin y sus errores absoluto y relativo de muestreo. Realizar las mismas estimaciones para muestreo con reposicin. Comentar los resultados. Podemos realizar el esquema siguiente para el problema.
M =50

P5=0,16 SR PI

P2=0,2 P3=0,18 P1=0,14 n=5

N=300
M =50 M =50

P4=0,12

SR significa sin reposicin y PI probabilidades iguales. Estamos en un caso de muestreo monoetpico de conglomerados del mismo tamao. Se tiene:
n = 1 P = 1 (0,14 + 0,20 + 0,18 + 0,12 + 0,16) = 0,16 P i n i =1 5

= NM P = 300 u 50 u 0,16 = 2400 A


2 n ) = (NM )2 V (A (P ) = (NM )2 (1 < f ) S b = (NM )2 (1 < f ) 1 ( P < P )2 = V i n(n < 1) i =1 nM

(300 u 50)2 1 <

5 (0,14 < 0,16) 2 + (0,20 < 0,16) 2 + (0,18 < 0,16) 2 + (0,12 < 0,16) 2 + (0,16 < 0,16) 2 = 45000 300 5(5 < 1)

(P ) = V

1 ) = 45000 = 0,0002 (A V 2 300 2 50 2 N M


2

v( P v( A ) = V ( A) = 45000 = 0,088 (8,8%) ) = C C 2400 A

Muestreo unietpico de conglomerados

289

Se estima que en la regin hay un 16% de animales enfermos y un total de 2400 animales enfermos, con un error de muestreo del 8,8%. Ahora estimaremos los errores absoluto y relativo de muestreo del total de clase y de la proporcin considerando muestreo con reposicin. Tenemos:
n 2 1 ) = (NM )2 V (A (P ) = (NM )2 S b = (NM )2 ) 2 = 45762,7 V ( Pi < P n(n < 1) i =1 nM

(P ) = V

1 ) = 45762,7 = 0,000203389 (A V 2 300 2 50 2 N M


2

v( P v( A ) = V ( A) = 45762,7 = 0,089 (8,9%) ) = C C 2400 A

Se observa que los errores de muestreo son ligeramente mayores en el caso de reposicin.

7.3.

En un proceso electoral se toma una muestra aleatoria de 10 urnas, el nmero de votantes y sus papeletas favorables a un determinado partido son:
Nmero de votantes Papeletas favorables 4 2 6 1 5 3 3 8 1 4 2 1 4 1 2 1 2 5 0 3

Suponiendo muestreo con reposicin, estimar la proporcin de votos favorables a ese partido en toda la poblacin y su error de muestreo. Vamos a considerar las urnas como conglomerados, siendo las unidades elementales las papeletas introducidos en ellas. Por tanto, los nmeros de papeletas en las distintas urnas sern los tamaos de los conglomerados Mi. Se considera la clase A de los votantes que votan a favor del partido en cuestin. Por tanto, las papeletas favorables al partido en cada urna sern los valores Ai. Ya que los conglomerados son de distinto tamao, para estimar la proporcin del total de votantes de la poblacin que votan al partido utilizaremos el estimador de la razn de A a M siguiente:
= P

A M
i =1 i =1 10

10

=
i

21 = 0,57 37

Para estimar la varianza de la proporcin con reposicin utilizamos el estimador de la varianza del estimador de la razn:

290 Muestreo estadstico. Conceptos y problemas resueltos


10 10 10 1 2 2 2 2 + R )= 2S 2 < 2R S (P ) = 1 (S ( 2 V A R M R Ai Mi ) + < i A M AM i nM 2 nM 2 (n <1) i =1 i =1 i =1 1 = (65 + 0,572 u181< 2 u 0,57u106) = 0,00242 2 10u 3,7 u (10 <1)

) = V (P ) = 0,00242 = 0,049 . (P El error de muestreo estimado ser m

7.4.

Se trata de estudiar la superficie de una regin montaosa dedicada a la plantacin de pinos. La regin, que tiene un total de 25000 km2, se divide en 100 zonas disjuntas lo ms similares entre s de tal forma que cada zona contiene plantas de todas las clases que crecen en la regin. Se extrae una muestra de 10 zonas con reemplazamiento y con probabilidades proporcionales a sus superficies. Las proporciones de superficie total dedicadas a la plantacin de pinos en cada una de las zonas de la muestra son: 0,05, 0,25, 0,10, 0,30, 0,15, 0,25, 0,35, 0,25, 0,10 y 0,20 Se pide un estimador insesgado de la superficie total de la regin dedicada a la plantacin de pinos, su error relativo y un intervalo de confianza al nivel _ = 0,05. Sea Mi = Superficie de la zona i-sima Sea Xi = Superficie dedicada a la plantacin de pinos
n n = Xi = Xi = M X HH M n i =1 nPi i =1 n i M
2

M
i =1

Xi
i

2500 (0,05 + 0,25 + L + 0,20) = 5000 10

Xi < X HH i =1 P i = (X )= V HH n(n < 1)


n

Xi <X HH i =1 M i M = n(n < 1)


n

Xi M M < X HH i =1 i = n(n < 1)


n

(25000u 0,05 < 5000)2 + (25000u 0,25 < 5000)2 + L + (25000u 0,20 < 5000)2 = 590278 10(10 < 1)

v( X ) = V ( X ) = 590278 = 0,15 (15%) C 5000 X

La estimacin por intervalos suponiendo normalidad en la poblacin es:


h m X _ ( X ) = 5000 2 590278 = [3464, 6536]

La estimacin por intervalos sin normalidad en la poblacin es:


) (X 590278 m X = 5000 = [1564, 8346] 0,05 _

Muestreo unietpico de conglomerados

291

7.5.

Una gran empresa tiene sus inventarios de equipo listados separadamente en 15 departamentos. Se selecciona una muestra de tres departamentos con reposicin y probabilidades proporcionales al nmero de artculos de equipo en cada departamento. La tabla siguiente presenta el nmero de artculos de equipo NA en cada departamento D.
D 1 2 3 NA D 12 9 27 4 5 6 NA D 40 35 15 7 8 9 NA 18 10 D 10 11 NA D NA 16 33 6 22 13 22 14 19 15

31 12

1) Suponiendo que los tres departamentos seleccionados (que sern los de mayor probabilidad) tienen cada uno 2 artculos impropiamente identificados, estimar el nmero total de artculos impropiamente identificados en la empresa y su error relativo de muestreo. 2) Estimar por intervalos al 95% la media de artculos propiamente identificados, sabiendo que los tres departamentos seleccionados tienen respectivamente 4, 5 y 6 artculos impropiamente identificados. Como se selecciona la muestra de tres departamentos con probabilidades proporcionales al nmero de artculos de equipo en cada departamento, los tres departamentos seleccionados para la muestra sern el 4, el 5 y el 14, ya que son los que van a tener mayor probabilidad de seleccin (por tener el mayor nmero de artculos). Al ser la seleccin con probabilidades proporcionales a los tamaos se tiene que:
Pi =

40 35 33 Mi P1 = , P2 = y P3 = M 315 315 315

Como el muestreo es con reposicin, el estimador insesgado del total de la clase de los artculos impropiamene clasificados vendr dado por la frmula de Hansen y Hurwitz.
n n = MP = 1 M i Pi = 1 M i Pi = M A HH HH n i Pi n i Mi M n

= P
i i

315 2 2 2 + + 18 3 40 35 33

= proporcin muestral en el conglomerado i-simo P i


Como estamos en muestreo monoetpico con reposicin y probabilidades desiguales proporcionales a los tamaos, utilizamos para estimar la varianza el estimador:
Ai <A i Pi = = A V n (n < 1)
n 2 n M i Pi < MP M 2 Pi < P Pi i = i n (n < 1) n (n < 1) n 2

()

315 2 3u2

2 2 2 2 18 18 18 2 2 < < < = 1,04209 + + 33 315 35 315 40 315

292 Muestreo estadstico. Conceptos y problemas resueltos

Para estimar la proporcin de artculos propiamente identificados observamos que los tres departamentos seleccionados para la muestra (el 4, el 5 y el 14) tienen 36, 30 y 27 artculos propiamente identificados, respectivamente. El estimador ser el siguiente:
Mi Mi Pi Pi n n 1 1 1 n 1 36 30 27 = M = M = P + + P = 0,858 i = 3 40 35 33 Pi n i Mi M n i n i
2 2 2 1 1 36 30 27 i V P = 2V A = = < 0,858 + < 0,858 + < 0,858 = 0,000558 M n(n < 1) 3u 2 35 33 40

()

()

) (P < P
n i

El intervalo de confianza al 95%, suponiendo normalidad, ser:


h V (P ) = 0,858 1,96 0,000558 = [0.8117, 0.9043] P _

7.6.

Un fabricante de sierras quiere estimar el costo de reparacin promedio mensual para las sierras que ha vendido a ciertas industrias. El fabricante no puede obtener un costo de reparacin por sierra, pero puede obtener la cantidad total gastada en reparacin y el nmero de sierras que tiene cada industria. El fabricante decide seleccionar una muestra aleatoria simple sin reposicin de 20 industrias de entre las 96 a las que ofrece servicio. Los datos de gasto total mensual en reparaciones por industria y el nmero de sierras por industria se presentan en la tabla siguiente:
Indus. 1 2 3 4 5 6 7 8 9 10 N de sierras 3 7 11 9 2 12 14 3 5 9 Costo total de reparaciones mensual 50 110 230 140 60 280 240 45 60 230 Indus. 11 12 13 14 15 16 17 18 19 20 N de sierras 8 6 3 2 1 4 12 6 5 8 Costo total de reparaciones mensual 140 130 70 50 10 60 280 150 110 120

1) Estimar el costo promedio de reparacin mensual por sierra y su error de muestreo. 2) Estimar la cantidad gastada por las 96 industrias en la reparacin de sierras y su error de muestreo. 3) Despus de verificar sus registros de ventas, el fabricante se percata de que ha vendido un total de 710 sierras a esas industrias. Usando esta informacin adicional, estimar la cantidad total gastada en reparacin de sierras para estas industrias y su error de muestreo. 4) El mismo fabricante quiere estimar el coste de reparacin promedio por sierra para el mes siguiente: cuntos conglomerados debe seleccionar en la muestra si quiere que su error de muestreo sea inferior a una unidad?

Muestreo unietpico de conglomerados

293

Consideramos las industrias como conglomerados (N = 96). Se extrae una muestra de 20 conglomerados (n = 20) siendo las unidades elementales el nmero de sierras Mi de cada industria. El coste promedio de reparacin de sierra se estimar como la razn entre el coste total de reparacin por industria y el nmero de sierras por industria. Como los conglomerados son de tamaos desiguales tenemos:

x=

X M
i =1 i =1 n

50 + 110 + L + 120 2565 = = 19,73 3 + 7 +L+ 8 130

10 10 10 2 + R ) = 1< f ( X 2 + R ( x ) = 1 < f (S 2S 2 < 2R S 2 M 2 < 2R X M ) = V x M xm i i i i 2 2 nM nM (n < 1) i =1 i =1 i =1 20 1< 96 ( x ) = 0,89 (460225+ 19,732 u1188< 2 u19,73u 22285 ) = 0,7905 m 2 130 20 u u (20 < 1) 20 Para estimar el coste total en reparacin de sierras en las industrias tomamos:

=N X n
n

X
i =1

96 2565 = 12312 20 n X i i =1 < )= n


2

(X i < x ) N 2 (1 < f ) n 2 2 1 < f i =1 = V (X ) = N ( X i n(n < 1) i =1 n n <1 20 96 2 (1 < ) 2 96 (460225 < (2565) ) = 25200516 m ) = 1587,467 (X 20 20(20 < 1)
2

Ahora conocemos M = 710 y queremos estimar la cantidad total gastada para reparacin de sierras en las industrias. Utilizaremos el estimador del total basado en la razn definido como:
= X

X M
i =1 i =1 n

uM =

2565 u 710 = 14008,846 130

2 10 10 10 2 + R ) = N (1 < f ) ( X 2 + R 2 M 2 < 2R X M ) (X ) = N 2 1 < f (S 2S 2 < 2R S V x M xm i i i i n(n <1) i =1 n i =1 i =1

20 962 1 < 96 (460225+ 19,732 u1188< 2 u19,73u 22285 ) = 555,4 (X ) = 308467 ,24 m = 20u (20 <1)
El nmero n de conglomerados a seleccionar en la muestra si se quiere un error de muestreo inferior a una unidad al estimar el coste de reparacin promedio por sierra para el mes siguiente se obtiene despejando n en la expresin:

294 Muestreo estadstico. Conceptos y problemas resueltos

n ,002 96 16066 (x) = < 1 n > 14 V 2 19 710 nu 96 1<

7.7.

Un socilogo quiere estimar el ingreso promedio por persona en una ciudad pequea en la que no est disponible una lista de residentes. Par ello, se divide la ciudad en 415 bloques rectangulares de residentes sobre un mapa y se realizan entrevistas en 25 bloques. Se pregunta a los residentes de cada bloque por su ingreso total. Se obtienen los siguientes resultados:
Conglomerado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 SUMAA Nmero de Ingreso total por residentes (Mi ) conglomerado (Xi ) 8 96000 12 121000 4 42000 5 65000 6 52000 6 40000 7 75000 5 65000 8 45000 3 50000 2 85000 6 43000 5 54000 10 49000 9 53000 3 50000 6 32000 5 22000 5 45000 4 37000 6 51000 8 30000 7 39000 3 47000 8 41000 151 1329000

1) Estimar el ingreso promedio por persona en la ciudad y establecer un lmite para el error de estimacin. 2) Estimar el ingreso total de todos los residentes de la ciudad y establecer un lmite para el error de estimacin sabiendo que hay 2500 residentes en la ciudad. 3) Estimar el ingreso total de todos los residentes de la ciudad y establecer un lmite para el error de estimacin si se desconoce el nmero de residentes en la ciudad. Consideramos los bloques rectangulares de residentes como conglomerados ( N = 415). Se extrae una muestra de 25 conglomerados (n = 25), siendo las unidades elementales el nmero de residentes Mi de cada bloque.

Muestreo unietpico de conglomerados

295

El ingreso promedio por persona en la ciudad se estimar como la razn entre el ingreso total de los bloques y el nmero de residentes en los bloques. Como los conglomerados son de tamaos desiguales tenemos:

x=

X M
i =1 i =1 n

1329000 = 8801 151

10 10 10 2 2 2 2 + R ) = 1< f 2 S 2 < 2R S ( x ) = 1 < f (S V ( X + R M < 2 R X i M i ) = 653785 i x M xm i nM 2 nM 2 (n < 1) i =1 i =1 i =1

El lmite para el error de estimacin al 95% ser:


( x ) = 8801 2 653785 = 8801 1617 x2 V

Para estimar el ingreso total de todos los residentes de la ciudad hacemos lo siguiente:
= Mx = 2500(8801) = 22002500 X

El error de estimacin se estima mediante:


(X ) = M 2V ( x ) = 2500 2 (653785) V

El lmite para el error de estimacin al 95% ser:


2 V (X ) = 22002500 4042848 X

Si no se conocen los residentes en la ciudad M, para estimar el ingreso total de todos los residentes de la ciudad utilizamos el estimador:
=N X n
n

X
i =1

415 1329000 = 22061400 25


2

(X i < x ) N 2 (1 < f ) n 2 (X ) = N 2 1 < f i =1 V = ( X i n n <1 n( n < 1) i =1 25 ) 415 2 (1 < 2 415 (82039000000 < (1329000) ) m ) = 1752960 (X 25 25(25 < 1)
El lmite para el error de estimacin al 95% ser:
2 V (X ) = 22061400 3505920 X

n X i i =1 )= < n

296 Muestreo estadstico. Conceptos y problemas resueltos

7.8.

Un auditor desea muestrear los registros de ausencias por enfermedad de una gran empresa, para estimar el nmero promedio de das de ausencia por enfermedad por empleado en el cuatrimestre pasado. La empresa tiene ocho divisiones, con diferentes nmeros de empleados por divisin. Ya que el nmero de das de ausencia por enfermedad dentro de cada divisin debe estar altamente correlacionado con el nmero de empleados, el auditor decide muestrear n = 3 divisiones con probabilidad proporcional al nmero de empleados. Mostrar cmo seleccionar la muestra si los respectivos nmeros de empleados son 1200, 450, 2100, 860, 2840, 1910, 390, 3200. Supngase que el nmero total de das de ausencia por enfermedad registrados en las tres divisiones muestreadas durante el cuatrimestre pasado son, respectivamente, X1 = 4320, X2 = 4160, X3 = 5790. Estimar el nmero promedio de das de ausencia por enfermedad requeridos por persona, de toda la empresa, y establecer un lmite para el error de estimacin. Comenzamos listando el nmero de empleados y el intervalo acumulado para cada divisin.
Divisin 1 2 3 4 5 6 7 8 Nmero de empleados 1200 450 2100 860 2840 1910 390 3200 12950 Intervalo acumulado 1-1200 1201-1650 1651-3750 3751-4610 4611-7450 7451-9360 9361-9750 9751-12950

Como se van a muestrear n = 3 divisiones, debemos seleccionar tres nmeros aleatorios entre 00001 y 12500. Los nmeros obtenidos mediante una funcin generadora de nmeros aleatorios automatizada resultan ser 02011, 07972 y 10281. El primero pertenece al intervalo acumulado de la divisin 3, el segundo al de la divisin 6 y el tercero al de la divisin 8. Por lo tanto, la muestra estar formada por las divisiones 3, 6 y 8.
X HH 1 = M Xi n n Xi X i 1 4220 4160 5790 M =1 = = + + = 2,02 M i n i =1 M i 3 3100 1910 3200 i =1 nP i =1 i n M
n

2 n Xi X i < X HH < X HH i M i =1 MP ) = 1 i =1 Pi (X = V HH n(n < 1) n(n < 1) M2 n n 2

n X i < X HH Mi i =1 M M = = n(n < 1)

2 2 2 Xi 4220 4160 5790 < X < + < + < 2 , 02 2 , 02 2 , 02 HH i =1 M i 3100 1910 3200 = = 0,0119 n(n < 1) 3(3 < 1)

El lmite para el error de estimacin ser 2 0,0119 = 0,22 .

Muestreo unietpico de conglomerados

297

EJERCICIOS PROPUESTOS
7.1.
De una poblacin formada por N conglomerados se selecciona una muestra de tamao n con un procedimiento mediante el cual se elige la primera unidad para la muestra con probabilidades desiguales Pi, y los n < 1 conglomerados restantes de la muestra se eligen con probabilidades iguales, realizndose todas las extracciones sin reposicin. Se pide una estimacin insesgada del total poblacional X y sus errores absoluto y relativo de muestreo siendo N = 50, n = 4, Xi el total del conglomerado i-simo y conociendo los siguientes datos de los conglomerados de la muestra:
Pi Xi 0,026 0,017 0,022 0,013 100 80 120 60

7.2.

En una poblacin compuesta por 10 conglomerados de 100 elementos se toma una muestra monoetpica de n conglomerados. Por experiencias anteriores se sabe que el modelo de Smith S2b = S2 M t se ajusta bien en la proximidad de M =100 y se conoce el valor de S2b =1173. Se pide: Calcular el valor de t y S2w en el supuesto de que S2b/ S2 =13,8. Formar la tabla poblacional del anlisis de la varianza y hallar el coeficiente de correlacin intraconglomerados.

7.3.

Una industria est considerando la revisin de su poltica de jubilacin y quiere estimar la proporcin de empleados que apoyan la nueva poltica. La industria consiste de 87 plantas separadas localizadas en todo Estados Unidos. Ya que los resultados deben ser obtenidos rpidamente y con poco dinero, la industria decide usar muestreo por conglomerados, con cada planta como un conglomerado. Se selecciona una muestra irrestricta aleatoria de 15 plantas y se obtienen las opiniones de los empleados en estas plantas a travs de un cuestionario. Los resultados se presentan en la tabla anexa. Estimar la proporcin de empleados en la industria que apoyan la nueva poltica de jubilacin y establecer un lmite para el error de estimacin.
Planta Nmero de empleados 51 62 49 73 101 48 65 49 73 61 58 52 65 49 55 Nmero de empleados que apoyan la nueva poltica 42 53 40 45 63 31 38 30 57 45 51 29 46 37 42

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

298 Muestreo estadstico. Conceptos y problemas resueltos

7.4.

El gerente de circulacin de un peridico desea estimar el nmero promedio de ejemplares comprados por familia en determinada comunidad. Los costos de transporte de un hogar a otro son sustanciales. Es por eso por lo que se listan los 4000 hogares de la comunidad en 400 conglomerados geogrficos de 10 hogares cada uno, y se selecciona una muestra irrestricta aleatoria de 4 conglomerados. Se realizan las entrevistas con los resultados que se muestran en la tabla anexa. Estimar el nmero promedio de peridicos por hogar en la comunidad y establecer un lmite para el error de estimacin.
Conglomerado 1 2 3 4 Nmero de peridicos 2 1 3 3 2 2 1 1 1 1 3 2 Total 19 20 16 20

1 1 2 1

3 3 1 1

2 1 3 5

1 4 2 1

4 1 1 2

1 1 3 3

1 2 1 1

7.5.

Se disea una encuesta econmica para estimar la cantidad promedio gastada en servicios para el hogar en una ciudad. Ya que no se encuentra disponible una lista de hogares, se usa muestreo por conglomerados, con divisiones (barrios) formando los conglomerados. Se selecciona una muestra aleatoria de 20 barrios de la ciudad de un total de 60. Los entrevistadores obtienen el costo de los servicios de cada hogar dentro de los barrios seleccionados; los costos totales se muestran en la tala anexa. Estimar la cantidad promedio de gastos en servicios por hogar en la ciudad y establecer un lmite para el error de estimacin.
Barrio muestreado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Nmero de hogares 55 60 63 58 71 78 69 58 52 71 73 64 69 58 63 75 78 51 67 70 Cantidad total gastada en servicios 2210 2390 2430 2380 2760 3110 2780 2370 1990 2810 2930 2470 2830 2370 2390 2870 3210 2430 2730 2880

CAPTULO MUESTREO BIETPICO DE CONGLOMERADOS

OBJETIVOS
1. Presentar el concepto de muestreo de conglomerados en dos etapas. 2. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados del mismo tamao con probabilidades iguales. 3. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados del mismo tamao con probabilidades iguales considerando todas las opciones posibles de reposicin o no en ambas etapas. 4. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados de distinto tamao con probabilidades iguales. 5. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados de distinto tamao con probabilidades iguales considerando todas las opciones posibles de reposicin o no en ambas etapas. 6. Estudiar el tamao de la muestra en muestreo bietpico. 7. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados con probabilidades desiguales y con reposicin en primera etapa. 8. Analizar los estimadores y sus errores en muestreo bietpico de conglomerados con probabilidades desiguales y sin reposicin en primera etapa. 9. Presentar el concepto de muestreo polietpico. 10. Analizar los estimadores y sus errores en muestreo polietpico. 11. Estudiar diseos polietpicos complejos. 12. Estudiar el muestreo bietpico con estratificacin en primera etapa.

300 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo bietpico de conglomerados. Estimadores para probabilidades iguales y conglomerados del mismo tamao. 2. Varianzas y su estimacin en muestreo bietpico con probabilidades iguales y conglomerados del mismo tamao. 3. Muestreo bietpico de conglomerados de distinto tamao y probabilidades iguales. 4. Tamao de la muestra en muestreo bietpico. 5. Muestreo bietpico con probabilidades desiguales y con reposicin en 1 etapa. Estimadores, varianzas y su estimacin. 6. Muestreo bietpico con probabilidades desiguales y sin reposicin en 1 etapa. Estimadores, varianzas y su estimacin. 7. Muestreo polietpico. 8. Diseos complejos: Muestreo bietpico con estratificacin en primera etapa. 9. Problemas resueltos. 10. Ejercicios propuestos.

Muestreo bietpico de conglomerados

301

MUESTREO BIETPICO DE CONGLOMERADOS. ESTIMADORES PARA PROBABILIDADES IGUALES Y CONGLOMERADOS DEL MISMO TAMAO
El muestreo bietpico de conglomerados es un tipo de muestreo en el que en una primera etapa se selecciona una muestra de n conglomerados de tamaos Mi, i = 1, 2, ..., n y en una segunda etapa se selecciona, independientemente en cada conglomerado de la primera etapa, una submuestra de mi unidades elementales de entre las Mi del conglomerado. En ambas etapas la seleccin puede ser con o sin reposicin, pero en la segunda etapa suele usarse muestreo sin reposicin. En la segunda etapa se puede utilizar cualquier tipo de muestreo de los ya estudiados, pero generalmente sin reposicin y probabilidades iguales. En el muestreo bietpico no es necesario utilizar todas las unidades elementales de los conglomerados seleccionados en primera etapa. Tampoco es necesario un marco de unidades elementales completo; basta con un marco ms basto para conglomerados, y dentro de cada conglomerado basta con un submarco para el submuestreo en segunda etapa. De esta forma, a medida que se consideran etapas de submuestreo se utilizan submarcos ms bastos, y por lo tanto ms fciles de conseguir y manejar, que los marcos completos de unidades elementales. Cuando hay un cierto grado de homogeneidad dentro de los conglomerados muestrales es absurdo seleccionar todas sus unidades elementales para la muestra. Bastar con elegir slo algunas de ellas originndose el submuestreo. En el muestreo bietpico se necesitan menos recursos y el coste es menor, ya que slo se visitan algunas de las unidades elementales de los conglomerados elegidos en primera etapa para la muestra. No obstante, en el muestreo bietpico la precisin es menor; los submarcos dentro de cada conglomerado pueden originar complicaciones al aumentar el nmero de etapas de submuestreo y aparecen fuentes de variacin que complican los clculos algebraicos (tantas fuentes como etapas tenga el muestreo). La primera fuente es debida a la seleccin de las unidades primarias y la fuente 2 es debida al submuestreo dentro de cada unidad primaria. El muestreo bietpico tambin se denomina muestreo en dos etapas o muestreo con submuestreo (el submuestreo es la segunda etapa). Un estimador insesgado de la media ser, lgicamente, la media muestral de las medias muestrales derivadas del submuestreo dentro de cada conglomerado:
x= 1 nm

X
i j

ij

1 n xi n i

Para el total poblacional, proporcin y total de clase, los estimadores insesgados son los siguientes:

= N M x = NM X n

x ,
i i

n = NM P =1 P ,A = NM P i n i n

P
i

VARIANZAS Y SU ESTIMACIN EN MUESTREO BIETPICO CON PROBABILIDADES IGUALES Y CONGLOMERADOS DEL MISMO TAMAO
Las expresiones para la varianzas de los estimadores en el muestreo bietpico dependern de las fracciones de muestreo en ambas etapas y de la reposicin. Tenemos:

302 Muestreo estadstico. Conceptos y problemas resueltos

Muestreo sin reposicin en las dos etapas


V (x ) = (1 < f 1 ) u S b2 S2 + (1 < f 2 ) u w nM nm
N i i

n m f1 = , f 2 = , S b2 = M N M

( X

<X

N <1

2 = , Sw

(X
M j

ij

< Xi )

(M < 1) u N

2 2 2 2 2 ) = N 2V (x ) = (1 < f ) u N MS b + (1 < f ) u N M S w V (X 1 2 n nm

$ ) = (1 < f ) V( P 1

N 1 1 N 2 MPi (1 < Pi ) M ( Pi < P) N ( M < 1) i =1 N <1 i + (1 < f 2 ) = nM nm

(1 < f )
1

( P < P)
i i

n( N < 1)

+ (1 < f 2 )
N i

MP (1 < P )
i =1 i i

nm N ( M < 1)
2

$ ) = N 2 M 2V ( P $ ) = (1 < f ) V(A 1

N 2 M 2 ( Pi < P) n( N < 1)

+ (1 < f 2 )

NM 3 Pi ( 1 < Pi )
i =1

nm ( M < 1)

A partir de la tabla de descomposicin del anlisis de la varianza muestral, pueden realizarse las estimaciones de las varianzas. La citada tabla es la siguiente:
Fuente Entre Dentro Total Grados libertad Sumas de cuadrados Cuadrados medios Valores esperados
n i

n <1 n(m < 1) nm < 1

m
n i

(x
m j

<x

2 S b

m 2 2 S b + (1 < f 2 )S w M
2 Sw

( X
(X
i j n m

ij

< xi
<x

2 S w
2 S

ij

S2

Las estimaciones de las varianzas para las dos etapas sin reposicin son las siguientes:
2 2 (X ) = N 2 M 2V (x ) (x ) = (1 < f ) S b + f (1 < f ) S w , y V V 1 1 2 nm nm

P = (1 < f ) u V 1

()

(P < P )
i i

n(n < 1)

+ f1 (1 < f 2 ) u

PQ
i 2 i

n (m < 1)

Muestreo bietpico de conglomerados

303

$ ) = N 2 M 2V $( X $(x ) V

$ ) = N 2 M 2V $) $( A $( P y V

$( x ) = 1 < f u Si f1 es muy pequea, se toma V 1


Muestreo con reposicin en las dos etapas
V (x ) =

$2 S b . nm

m b2
nM

2 mw

nm

$ ) = V ( NMx ) = V(X

2 N 2 Mmb2 N 2 M 2m w + n nm

$) = V( P

1 N

M ( P < P)
i i

nM

1 NM

MP (1 < P ) ( P < P)
i =1 i i

N i

nm
NM 2 ( Pi < P )
i N

nN
N

P (1 < P )
i =1 i i

nm N

$) = $ ) = N 2 M 2V ( P V(A

NM 2 Pi ( 1 < Pi )
i =1

nm

Las estimaciones de varianzas son:


2 (x ) = S b , V nm

(X ) = N 2 M 2V (x ) y V
n i 2 i

m n (Pi < P )2 P = n <1 i V = nm

()

(P < P )
n(n < 1)

= N 2M 2 A y V

()

(P < P )
n i i

n(n < 1)

Primera etapa con reposicin y segunda sin reposicin


V (x ) =

m b2
nM

+ (1 < f 2 )

2 Sw nm

$ ) = V ( NMx ) = V(X

2 N 2 Mmb2 N 2 M 2 Sw + (1 < f 2 ) n nm

N N N 1 1 N 2 2 < 1 MP P ( ) < < M P P P P ( ) ( ) i i MPi (1< Pi ) i N ( M < 1) i =1 i N i i $ V ( P) = + (1< f2 ) = + (1< f2 ) i =1 nM nm nN nmN ( M < 1)

$ ) = N 2 M 2V ( P $) = V(A

NM 2 ( Pi < P)
i

+ (1 < f 2 )

NM 3 Pi ( 1 < Pi )
i =1

nm ( M < 1)

304 Muestreo estadstico. Conceptos y problemas resueltos

Las estimaciones de varianzas son iguales que para reposicin en las dos etapas:
2 S V (x ) = b , nm

(X ) = N 2 M 2V (x ) y V
n i 2 i

m n (Pi < P )2 P = n <1 i V = nm

()

(P < P )
n(n < 1)

= N 2M 2 A y V

()

(P < P )
n i i

n(n < 1)

Primera etapa sin reposicin y segunda con reposicin


V (x ) = (1 < f1 )
2 S b2 m w + nM nm

2 N 2 MSb2 N 2 M 2m w $ V ( X ) = V ( NMx ) = (1 < f 1 ) + n nm


N N 1 N 1 N 2 2 ) ( ) ( ) M (P P M P P P P P < 1 < < 1< P i( i) i i i i NM i =1 i =1 i = (1 < f ) N <1 i f + = ( 1 < ) + VP 1 1 nM nm n(N <1) nmN

()

$ ) = N 2 M 2V ( P $ ) = (1 < f ) V(A 1

N M

( P < P)
i i

NM

n( N < 1)

P (1 < P )
i =1 i i

nm

Cuando la primera etapa es sin reposicin y la segunda con reposicin, las estimaciones de varianzas son:
2 2 (X ) = N 2 M 2V (x ) (x ) = (1 < f ) S b + f S w , y V V 1 1 nm nm

= (1 < f ) VP 1

()

(P < P) P(1< P)
2 i i

n(N <1)

i =1

nmN

) = N 2 M 2V ( P ) y V (A
n

2 = m (Pi < P )2 y S w2 = Para proporciones y totales de clase: S b n <1 i

m P (1 < P )
i =1 i i

n(m < 1)

MUESTREO BIETPICO DE CONGLOMERADOS DE DISTINTO TAMAO Y PROBABILIDADES IGUALES


n = N 1 M x = N Para probabilidades iguales se tiene: X i i n i n

M
i

xi .

Las dos etapas sin reposicin


Las varianzas y sus estimaciones para las dos etapas sin reposicin son las siguientes:

Muestreo bietpico de conglomerados

305

= N 2 u (1 < f ) V X 1

( )

(X
i
n i

< X)

n(N < 1)

+
2

N n

M u (1 < f ) u (M
i 2 i j 2i
mi j

(X
i

Mi

ij

< Xi )

< 1)mi
ij

X = N (1 < f 1 V n

( )

X ) u

i < Xi N + n <1 n
n

M (1 < f 2i mi
2 i

(X ) u

< xi )

mi < 1

1 ,X = M x Xi = X i i i n i i

Primera etapa sin reposicin y segunda etapa con reposicin


En este caso, las varianzas y sus estimaciones son las siguientes:
= N 2 u (1 < f ) V X 1
n

( )

(X
i

< X)

n(N < 1)
2

N n

Mi mi i
N

(X
j

Mi

ij

< Xi )

<X X 2 i i ( ) < N 1 f N i 1 u V X = + n n <1 n

( )

M u mi

2 i

(X
j

mi

ij

< xi )

mi < 1

1 , Xi = X i n i
n

=M x X i i i

Las dos etapas con reposicin


En este caso, las varianzas y sus estimaciones son las siguientes:
N = N u (X < X )2 + N V X i n i n
i

( )

Mi mi i
N

(X
j

Mi

ij

< Xi )

<X X 2 i i N i u V X = n n <1

( )

1 n Xi = X i y X i = M i xi n i

Primera etapa con reposicin y segunda sin reposicin


En este caso, las varianzas y sus estimaciones son las siguientes:
=N V X n

( )

(X
i

< X) +
2

N n
2

M u (1 < f ) u (M
i 2 i j 2i

(X
i

Mi

ij

< Xi )

< 1)mi

<X X 2 i i N i u V X = n n <1

( )

1 n Xi = X i y X i = M i xi n i

306 Muestreo estadstico. Conceptos y problemas resueltos


n =1 M P =M P Para proporciones y totales de clase: X i i y X i i i i n i

Los estimadores para medias, proporciones y totales de clase en el muestreo bietpico con probabilidades iguales y conglomerados de distinto tamao son inmediatos:

N n Mi = X ) = 1 V ) = 1 V (X (X (X ) ), V X = xi , V ( X 2 M n i M M M2
=N P n
n Mi = N M P A = M P , P i i i n i M i
n

= proporcin muestral en el conglomerado i-simo P i


Las frmulas para la varianza del total de clase y su estimacin en el caso de muestreo sin reposicin en ambas etapas son las siguientes:
3 = (1 < f ) N PQ + N V A 1 n(N < 1) n

()

PQ M u (1 < f ) u (M < 1)m


N i 3 i 2i i i i
2

n < 1 M P MiP i i i 2 ( ) < 1 N f n i i =1 +N 1 = A u V n n <1 n n

()

PQ M (1 < f ) u m < 1
n i 2 i 2i i i i

Las frmulas para la varianza del total de clase y su estimacin en el caso de muestreo sin reposicin en primera etapa y con reposicin en segunda son las siguientes:
3 = (1 < f ) N PQ + N V A 1 n(N < 1) n

()

M i2 Pi Qi mi i
N
2

n < 1 M P M P i i i i 2 n i =1 +N = N (1 < f 1 ) u i A V n n <1 n n

()

M
i

2 i

Q P i i mi < 1

Las frmulas para la varianza del total de clase y su estimacin en el caso de muestreo con reposicin en ambas etapas son las siguientes:
2 = N PQ + N V A n n

()

M i2 Pi Qi mi
2

n < 1 M P MiP i i i 2 n i =1 = N u i A V n n <1 n

()

Muestreo bietpico de conglomerados

307

Las frmulas para la varianza del total de clase y su estimacin en el caso de muestreo con reposicin en primera etapa y sin reposicin en segunda son las siguientes:
2 = N PQ + N V A n n

()

PQ M u (1 < f ) u (M < 1)m


N i 3 i 2i i i i

n < 1 M P MiP i i i 2 n i =1 =N u i A V n n <1 n

()

) y V ) . (P ) = 1 V ) = 1 V (A (A Para proporciones aplicamos V ( P 2 M M2

TAMAO DE LA MUESTRA EN MUESTREO BIETPICO


Suele expresarse el coste total C mediante la funcin general de costes f ( n, M , m ) definida como:

C = co + c1n a1 + c2 ( nM )

a2

+ c3 ( nM )

a3

en donde c0 representa un coste fijo que suele incluir, dependiendo de las encuestas, gastos de preparacin tcnica, gastos administrativos previos, cartografa, etc. Puede empezarse por suponer deducido el coste co del total C, para no preocuparse ms que de la distribucin de los costes variables. Por otra parte, c1 , c2 y c3 son los costes unitarios por unidad primaria, por unidad secundaria listada y por unidad secundaria que sea objeto de entrevista o medida, respectivamente. Como casos particulares tpicos de nuestra funcin de costes tenemos: 1) a1 = a2 = a3 = 1, C = c1n + c2 nM + c3 nm 2) Adems de verificarse la condicin anterior, suponemos c2 = 0, con lo cual no se cuenta el coste del listado de unidades de segunda etapa. Ahora tenemos: C = c1n + c3 nm , que suele denominarse funcin de coste de campo, y que es la ms utilizada habitualmente. 3) Adems de las dos condiciones anteriores suponemos que c 1 = 0, lo que equivale a considerar el coste total directamente proporcional al tamao de la muestra. Tendremos C = cnm = cm . Una expresin matemtica de la funcin de coste no deducible de la funcin general anterior es la funcin de coste de Hansen, Hurwitz y Madow, cuya expresin es C = co n + c1n + c2 nm , donde el primer trmino expresa los gastos de viaje entre las unidades primarias. Hansen, Hurwitz y Madow obtienen el par varianza para una funcin de coste dada.

( n, m )

que minimiza la

308 Muestreo estadstico. Conceptos y problemas resueltos

Nosotros vamos a suponer en los clculos una funcin de coste de campo definida como C = n u c1 + n u m u c2 , y evaluaremos la varianza de la media a optimizar mediante la S2 (1 + (m < 1) u b ) . Para obtener los valores de n y m que expresin aproximada V (x ) = nm hagan mnima V ( x ) con la restriccin dada por la funcin de coste de campo construiremos la funcin de Lagrange:

q=

S2 u ( 1 + ( m < 1) , ) + h ( C < n u c1 < n u m c2 ) nm

Igualaremos a cero sus derivadas parciales respecto de n, m y h y eliminando parmetros adecuadamente se tiene: c 1<b mop = 1 u c2 b

MUESTREO BIETPICO CON PROBABILIDADES DESIGUALES Y CON REPOSICIN EN 1 ETAPA. ESTIMADORES, VARIANZAS Y SU ESTIMACIN
Si consideramos la unidad muestral primaria i-sima de muestreo como una poblacin, $ una estimacin de su total al considerar el submuestreo, y representamos por x siendo X i i un estimador insesgado de su media, podemos aplicar la expresin del estimador general de $ (estudiado en el Captulo 2) al muestreo bietpico, siendo la primera Hansen y Hurwitz X HH etapa con reposicin (la segunda etapa puede ser con o sin reposicin). As, un estimador insesgado del total ser:
n n n = X i = 1 X i = 1 M i xi . Un estimador insesgado del total ser: X HH n i Pi n i Pi i nP i

Para probabilidades proporcionales al tamao A Pi =


n n = 1 M i xi = 1 M i xi = M X HH n i Pi n i Mi M n

N Mi con M = M i , luego: M i =1

x
i

Los estimadores para medias, proporciones y totales de clase en el muestreo bietpico con probabilidades desiguales son inmediatos:
1 = 1 X X HH = M M Mi Mi xi Pi n n X 1 1 1 n MiP i i M M A M P M = , = = = nP n P n P n P i i i i i i i i Mi P 1 n M i P= n i Pi
n

= proporcin muestral en el conglomerado i-simo. P i

Muestreo bietpico de conglomerados

309

Varianzas
Como la primera etapa es siempre con reposicin, distinguiremos entre si la segunda etapa es con reposicin o sin reposicin. Sin reposicin en segunda etapa
N M i2 (1 < f 2i ) 2 1 N Xi ) = 1 V (X ) V ( X HH ) = < X Pi + u Si , V ( X HH HH 2 M n i =1 Pi nP m i i i
N N M2 (1< f2i ) Mi P A iQ i ) = 1 i < A2 + i V(A u HH n i=1 P nP m M < 1 i i ri i ri

) ) = 1 V (A V (P HH 2 M

Para el caso particular de probabilidades proporcionales a los tamaos Pi = con M =

M , se tiene:
i =1 i

Mi M

2 2 Mi N Mi2 (1< f2i ) 2 M N Xi2 X 2 N Mi 1 N Xi 2 ( 1 f ) S S < + u = < + < u V ( XHH) = X 2i i i M n i =1 M M n i =1 i nm i Mi / M Mi / M i mi i

Con reposicin en segunda etapa


N N Xi M i2 ) = 1 V (X ) = 1 ) < V (X X P + u m i2 , V ( X HH HH HH i 2 M n i =1 Pi nP m i i i
N M i2 1 N Ai V ( AHH ) = u Pi Qi < A Pri + n i =1 Pri i nP ri mi 2

) ) = 1 V (A V (P HH 2 M

Para el caso particular de probabilidades proporcionales a los tamaos Pi = con M =

M , se tiene:
i =1 i
2 N M + i u m i2 mi i

Mi M

2 2 Mi N M i2 1 N Xi M N Xi X2 V ( X HH ) = <X + u m i2 = < n i =1 M i / M n i =1 M M i nmi M i / M M i

310 Muestreo estadstico. Conceptos y problemas resueltos

Estimacin de varianzas (obtenidas por el mtodo de los conglomerados ltimos)


Los estimadores insesgados para las varianzas de los estimadores cuando la primera etapa es con reposicin, no dependen de si la segunda etapa es o no con reposicin. Independientemente de que la segunda etapa sea o no con reposicin, si la primera etapa es con reposicin, los estimadores insesgados para las varianzas de los estimadores son los siguientes: 2 n Xi < X HH i P i ) = 1 V (X (X ) V X = ,V HH 2 n(n < 1) M
A i <A = = i Pi V A n(n < 1)
n 2

MiP i < MP i Pi n(n < 1)


n

) (A (P ) = 1 V V 2 M

MUESTREO BIETPICO CON PROBABILIDADES DESIGUALES Y SIN REPOSICIN EN 1 ETAPA. ESTIMADORES, VARIANZAS Y SU ESTIMACIN
Si consideramos la unidad muestral primaria i-sima de muestreo como una poblacin, $ una estimacin de su total al considerar el submuestreo, y representamos por x siendo X i i un estimador insesgado de su media, podemos aplicar la expresin del estimador general de al muestreo bietpico, siendo la primera etapa sin reposicin (la Hoewitz y Thompson X HT segunda etapa puede ser con o sin reposicin). As, un estimador insesgado del total ser:
n n = X i = M i xi X HT i

/i

/i

Como casos particulares de este estimador tenemos: Conglomerados del mismo tamao M
n n = Mxi = M xi X HT i

/i

/i

Probabilidades proporcionales al tamao A / i =

N nM i con M = M i M i =1

n n = M i xi = M i xi = M X HT /i n i i nM i M

x
i

Muestreo bietpico de conglomerados

311

Probabilidades iguales A / i =

n N

n n = M i xi = M i xi = N X HT /i n i i n N

M x
i i

Vemos que las expresiones de los estimadores coinciden en muestreo con y sin reposicin. Los estimadores para medias, proporciones y totales de clase en el muestreo bietpico con probabilidades desiguales son inmediatos:

= 1 X = 1 X HT M M Mi Pi n M = P
i

/ =
i i i

X i

Mi xi M

/i

/i

= proporcin muestral en el conglomerado i-simo P i


Mi Pi n M P M = i i

= MP = M A
i

Varianzas

/i

/i

Como la primera etapa es siempre sin reposicin, distinguiremos entre si la segunda etapa es con reposicin o sin reposicin. Sin reposicin en segunda etapa
2 N N N Xj (1 < f 2i ) M i2 S i2 ) = X i (1 </ ) + X i , ( ) < + V (X / / / HT i ij i j mi / i i =1 / i i& j / i / j i

) = 1 V (X ) V (X HH HH 2 M

Con reposicin en segunda etapa


2 2 2 N N N ) = 1 V (X ) = X i (1 </ ) + X i X j (/ </ / ) + M i m i , V ( X ) V (X HT i ij i j HH HH 2 mi / i M i =1 / i i& j / i / j i

Para el caso particular de totales de clase y proporciones se hacen las siguintes sustituciones en las frmulas anteriores:
S i2 = Mi Pi Qi , m i2 = Pi Qi Mi <1

312 Muestreo estadstico. Conceptos y problemas resueltos

Estimacin de varianzas (obtenidas mediante los teoremas I y II de Durbin)


Sin reposicin en segunda etapa

n n n 2 2 X (1 < f 2i ) M i2 S j i (X ) = X i (1 </ ) + X i < + V / / / ( ) HT i ij i j mi / i i& j / i / j i =1 / i i


Con reposicin en segunda etapa
N N N 2 2 X M i2 S j i (X ) = X i (1 </ ) + X i V / / / < + ( ) ij i j i HT / / / m / i& j i i =1 i j i i i

)= 1 V (X ). (X Para las medias se hace V HH HH 2 M

2 = mi P Q Para el caso particular de totales de clase y proporciones se hace S i i i . mi < 1

MUESTREO POLIETPICO
En el muestreo polietpico se realizan submuestreos consecutivos hasta un nmero de etapas determinado. Por ejemplo, en el muestreo trietpico se selecciona en una primera etapa una muestra de unidades primarias, en una segunda etapa se realiza submuestreo en cada una de las unidades de la muestra de primera etapa y en una tercera etapa se realiza submuestreo en cada una de las unidades de la muestra de segunda etapa. De forma similar se generalizara para un nmero elevado de etapas, dando lugar al muestreo polietpico.

Muestreo con reposicin de unidades primarias y sin reposicin en las restantes etapas
Considerando la unidad muestral i-sima como una poblacin y representando por x i un estimador insesgado de X i , podemos extender el estimador insesgado de Hansen y Hurwitz a cualquier nmero de etapas. Tenemos entonces que un estimador insesgado del total ser:
n n n = X i = 1 X i = 1 M i xi X HH n i Pi n i Pi i nP i

La varianza de este estimador y su estimacin son las siguientes:


N N Xi ) = 1 V (X < X P + nPi u m i2 HH i n i =1 P i i 2

X i <X HH i P i V X = n(n < 1)


n

Muestreo sin reposicin en todas las etapas


un Considerando la unidad muestral i-sima como una poblacin y representando por X i estimador insesgado de X i , podemos extender el estimador insesgado de Horvitz y Thompson a cualquier nmero de etapas. Tenemos entonces que un estimador insesgado del total ser:

Muestreo bietpico de conglomerados


n n n = X i = M i xi = M i xi = N X HT n N n /i i /i i i

313

M
i

xi

La varianza de este estimador es:


2 N N N Xj 2 ) = X i / + 2 X i V (X / < X + m i2/ i HT i ij 2 i =1

/i

i< j

/i / j

Un estimador insesgado para la varianza es:

n n n 2 2 X X X (1 < f 2i ) M i2 S j i i i V ( X HT ) = (1 </ i ) + (/ ij </ i/ j ) + mi / i i =1 / i i& j / i / j i

DISEOS COMPLEJOS: MUESTREO BIETPICO CON ESTRATIFICACIN EN PRIMERA ETAPA


En la prctica es habitual utilizar diseos polietpicos con distintos tipos de muestreo en cada etapa. Es muy comn utilizar estratificacin de unidades primarias para seleccionar las unidades primarias de la muestra de primera etapa mediante muestreo estratificado. Despus se realiza la seleccin de las unidades de segunda etapa dentro de cada unidad de primera etapa. Para este tipo de muestreo bietpico con estratificacin en primera etapa las frmulas de los estimadores, varianzas y estimaciones de varianzas se presentarn a continuacin. Sean los pesos de los estratos y las fracciones de muestreo.
Wh = NhM h n m f h = h h = f 1h u f 2 h NM NhM h
L h L h

Un estimador insesgado de la media es x st = Wh x h = Wh u


E (x st ) = Wh E1 E 2 x h = Wh E1
h h L L

1 nh

x
i

nh

ih

pues

L L 1 n E 2 xih = Wh E1 x h = Wh X h =X nh i h h

La varianza del estimador de la media viene dada por:


L L S2 S2 V (x st ) = Wh2 u V (x h ) = Wh2 (1 < f 1h ) u bh + (1 < f 2 h ) u wh nh mh nh M h h i

La muestra es autoponderada si f h = f 1h u f 2 h = f y la estimacin de la varianza vendr dada por la siguiente expresin:


2 L L 2 (x ) = W 2 u V (x ) = W 2 (1 < f ) u S bh + f (1 < f ) u S wh V 1h 1h 2h st h h h nh mh nh mh h i

De forma similar se realizan otros diseos complejos de encuestas. En cada etapa se aplicarn los clculos relativos al tipo de muestreo definido en ella.

314 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
8.1.
En un barrio de una ciudad se obtiene una muestra de 6 manzanas de 30 casas cada una con probabilidades iguales. Dentro de cada manzana de la muestra se realiza submuestreo sin reposicin con fraccin de muestreo igual a 1/6, y se obtienen los siguientes valores para el nmero de casas en las que viven jubilados:
Manzana N de casas con jubilados 1 2 3 4 5 6 4 3 5 2 1 5

Se pide: 1) Suponiendo muestreo con reposicin de unidades primarias, estimar la proporcin P de casas del barrio en las que viven jubilados y su error relativo de muestreo. Estimar por intervalos al 95% el total A de casas del barrio en las que viven jubilados. 2) Suponiendo muestreo sin reposicin de unidades primarias y fraccin de muestreo en primera etapa igual a 1/2, estimar la proporcin de casas del barrio en las que viven jubilados y su error relativo de muestreo. Construir la tabla del anlisis de la varianza para la muestra y estimar el valor del coeficiente de correlacin intraconglomerados. Estimar por intervalos al 95% el total de casas del barrio en las que viven jubilados. Consideramos las manzanas como conglomerados de igual tamao (30 casas cada manzana). Tenemos como datos n = 6, M = 30, f 2i =

mi 1 mi = f 2i M = 30 = 5 = m . M 6

Estamos entonces en muestreo bietpico de conglomerados del mismo tamao con submuestreo tambin del mismo tamao y con reposicin en primera etapa sin existir reposicin en segunda etapa. El estimador de la proporcin es:
n 4 3 5 2 1 5 2 = 1P = 1 P + + + + + = i n i =1 6 5 5 5 5 5 5 3

Para calcular la varianza del estimador realizamos la tabla muestral del anlisis de la varianza. Para ello utilizamos seis variables de clasificacin de, C1 a C6, una por cada conglomerado muestral, de modo que cada variable tiene un nmero de unos igual al total de clase del conglomerado muestral correspondiente, y ceros para el resto de las unidades del conglomerado muestral. Se elige Anlisis de la varianza de un factor en Anlisis de datos del men Herramientas, y se rellena su pantalla de entrada como se indica en la Figura 8-1. Los resultados se ven en la Figura 8-2.

2 (P ) = S b = 0,53333 = 0,018 . El error relativo de muestreo es: La varianza es V nm 6,5


$) = Cv ( P $( P $) V 0,018 0,134164 = = = 0,2 (20%) $ 2/3 2/3 P

Muestreo bietpico de conglomerados

315

Figura 8-1

Figura 8-2 Al ser la fraccin de muestreo en primera etapa 1/2, tenemos 1/2 = 6/ N, de donde el nmero de conglomerados en la poblacin es N = 13. Para hacer una estimacin por intervalos del total de la caracterstica A en la poblacin, necesitamos la varianza del estimador del total. Pero:

) = N 2 M 2V ) = 48,3 (A (P ) = 12 2 30 2 0,018 = 2332,8 m (A V


El intervalo de confianza para el total al 95% suponiendo normalidad ser:

) ) = [240 < 1,96 48,3, ), A <h m <h m (A (A (A


_ _

240 + 1,96 48,3] = [145,33, 334,66 ]

= NMP = 12 30 2 = 240 A 3

En el caso de que ambas etapas sean sin reposicin, los estimadores de la proporcin y el total de clase no varan, pero s cambian los errores de muestreo. La varianza del estimador de la proporcin ser ahora:
2 2 1 0,5333 1 1 0,1666 P = (1< f ) Sb + f (1< f ) Sw = V + 1< = 0,0112 1< 1 1 2 nm nm 2 6,5 2 6 6,5

()

$ $ $ ) = V ( P) = 0,0112 = 0,10583 = 0,1587 (15,87%) y se El error relativo es Cv ( P $ 2/3 2/3 P observa que en muestreo sin reposicin el error resulta ser menor.

316 Muestreo estadstico. Conceptos y problemas resueltos

8.2.

Una regin tiene 1000 hogares agrupados en 50 pequeos municipios de tamaos desiguales Mi (i = 1, 2, ..., 50). Se trata de estimar la proporcin de hogares que estn al corriente de sus obligaciones fiscales mediante muestreo de conglomerados con submuestreo con probabilidades iguales y sin reposicin en las dos etapas. En la primera etapa se obtienen 5 municipios muestrales de tamaos 6, 10, 8, 20 y 60 hogares. En la segunda etapa, realizada con fracciones de muestreo f2i = 4/Mi, se obtiene en los 5 municipios de la muestra de primera etapa los valores 1, 3, 2, 2 y 3 para el nmero de hogares que estn al corriente de sus obligaciones fiscales. Se pide: 1) Hallar el estimador insesgado de la proporcin de hogares que estn al corriente de sus obligaciones fiscales y su error absoluto y relativo de muestreo. 2) Construir la tabla del anlisis de la varianza para la muestra y comprobar la igualdad fundamental. Consideramos los municipios como conglomerados de distinto tamao. Las unidades elementales son los hogares de los municipios. Tenemos:
f 2i = mi 4 = mi = 4 i Mi Mi

El estimador insesgado para la proporcin en muestreo bietpico para conglomerados de distinto tamao es:
=N P n M i 50 1 5 1 3 2 2 3 = 1 Pi = u MiP 6 + 10 + 8 + 20 + 60 = 0,68 i 5 1000 i 100 4 4 4 M 4 4 i
n

Para estimar la varianza de la proporcin utilizamos la frmula adecuada al muestreo bietpico sin reposicin en las dos etapas con probabilidades iguales para conglomerados de distinto tamao. Tenemos:
2 n 1 n Mi P 2 i < Mi P i n n i =1 + N M 2 (1 < f ) u P iQ i P = 1 N (1 < f1 ) u i V i 2i m <1 = 0,1458 M2 n n <1 n i i

()

El error relativo de muestreo viene dado por el coeficiente de variacin del estimador. Tenemos:
) = V ( P ) = 0,1458 = 0,38 = 0,5588 (55,88%) Cv( P 0,68 0,68 P

Como mi = 4 = m i , la tabla del anlisis de la varianza para la muestra en este caso del muestreo bietpico es la siguiente:

Muestreo bietpico de conglomerados

317

Fuente entre dentro Total

Grados libertad
n <1 n(m < 1) nm < 1

Sumas de cuadrados
<P m P i
i n

Cuadrados medios
2 S b 2 S w
2 S

)
i

(1 < P ) P
n i =1 i

nm P Q

2 = (nm < n)S 2 + (n <1)S 2 . La relacin fundamental del anlisis de la varianza ser: (nm <1)S w b Todos los elementos del cuadro son calculables con nuestros datos, con lo que ya pueden realizarse las operaciones para obtener los siguientes resultados:

Fuente entre dentro Total

Grados libertad 5 <1 = 4

Sumas de cuadrados

5( 4 < 1) = 15 5 u 4 < 1 = 19

0,7

Cuadrados medios

4,95

4,25

0,175 0,2833 0,26

8.3.

Consideremos una provincia con 400 municipios. Para estimar el total de hogares con automvil en la provincia se selecciona una muestra de 10 municipios con igual probabilidad, y dentro de cada municipio de la muestra se seleccionan aleatoriamente hogares utilizando una fraccin de muestreo f = 1/5. Se obtienen los siguientes datos:

Distritos muestrales 1 2 3 4 5 6 7 8 9 10
Se pide:

Total de hogares en los distritos ( M i ) 200 180 35 220 80 140 125 65 140 55

N de hogares en la muestra ( m i ) 40 35 7 44 16 28 25 13 28 11

Hogares con coche ( Ai ) 6 7 1 7 1 3 2 2 2 1

1) Estimar el total de hogares con automvil en la provincia y sus errores absoluto y relativo de muestreo. 2) Realizar la estimacin anterior por intervalos al 95% de confianza. Consideramos los municipios como conglomerados de distinto tamao. Las unidades elementales son los hogares dentro de los municipios.

318 Muestreo estadstico. Conceptos y problemas resueltos

El estimador insesgado para la proporcin en muestreo bietpico para conglomerados de distinto tamao con probabilidades iguales es:
=N A n M P
i i n i

400 6 7 1 200 + 180 + L + 53 = 6440 10 40 35 11

Para estimar la varianza del total de clase utilizamos la frmula adecuada al muestreo bietpico sin reposicin en las dos etapas (no se especifica otra cosa) con probabilidades iguales para conglomerados de distinto tamao. Tenemos:
1 n Mi P i < Mi P i 2 n n i =1 + N M 2 (1 < f ) u P iQ i = N (1 < f1 ) u i A V = 628237 i 2i n n <1 n i mi <1
n 2

()

El error relativo de muestreo viene dado por el coeficiente de variacin del estimador. Tenemos: ) = V ( A) = 628237 = 792,614 =0,123 (12,3%) Cv ( P 6440 6440 A Para hacer una estimacin por intervalos del total de la caracterstica suponiendo normalidad tendremos:

<h m ), A <h m ) ) = [6440 < 1.96 u 792,61, 6440 + 1.96 u 792,61] = [4886.4, 7993.5] (A (A (A
_ _

8.4.

De una via formada por 1000 lneos de 50 cepas cada uno, se extrae una muestra de 30 lneos. Dentro de cada lneo de la muestra se analizan cinco cepas, utilizando muestreo con probabilidades iguales y con reemplazamiento en primera etapa. El anlisis de la varianza de la muestra para una variable medida sobre las cepas presenta los siguientes resultados: Fuente de variacin Entre lneos Dentro de lneos Grados de libertad 29 120 Cuadrados medios 600 400

1) Estimar el error de muestreo del estimador de la media de la variable medida sobre las cepas. Hallar la amplitud de las estimaciones por intervalos al 95% de confianza. 2) Realizar los mismos clculos para muestreo sin reposicin en ambas etapas, comparando los resultados con los del apartado anterior. Consideramos cada lneo como conglomerado de 50 cepas (tamaos iguales). Cuando existe reposicin en primera etapa, la frmula de la estimacin de la varianza de la media, independientemente de que haya o no reposicin en segunda etapa, es la siguiente:
2 (x ) = S b V nm

La tabla del anlisis de la varianza para la muestra en el caso del muestreo bietpico es la siguiente:

Muestreo bietpico de conglomerados

319

Fuente entre dentro Total

Grados libertad

Sumas de cuadrados

Cuadrados medios

n <1

m ( xi < x )
i

$2 S b

n( m < 1)

( X ( X
i j i n j m

ij

< xi <x

2 S w

nm < 1

ij

$2 S

$ 2 = 600 y S 2 = 400. Por tanto: Si consideramos los datos de nuestro problema tenemos S w b 2 (x ) = S b = 600 = 4 V nm 29 u 5
(x ) , que puede considerarse La amplitud del intervalo de confianza al 95% es 2 V como un lmite para el error de muestreo, y que en nuestro caso vale 4.

Si las dos etapas son sin reposicin se tiene:


2 2 30 600 30 5 400 x = (1 < f ) Sb + f (1 < f ) u Sw = V + = 3,95 1 < 1 < u 1 1 2 nm nm 1000 30 u 5 1000 50 30 u 5

()

(x ) , que en este caso vale 7,9. La amplitud del intervalo de confianza al 95% es 2 V Como es natural, tiene menos varianza el muestreo sin reposicin, ya que siempre es ms preciso. Este hecho tambin se refleja en la anchura de los intervalos de confianza.

8.5.

Un fabricante de prendas de vestir tiene 90 plantas localizadas en todo Estados Unidos y quiere estimar el nmero promedio de horas que las mquinas de coser estuvieron sin funcionar por reparacin en los meses pasados. Debido a que las plantas estn muy dispersas, el fabricante decide utilizar un muestreo por conglomerados, especificando cada planta como un conglomerado de mquinas. Cada planta contiene muchas mquinas, y el verificar los registros de reparacin de cada mquina implicara consumir tiempo. Por tanto el fabricante usa un muestreo en dos etapas. Se dispone de tiempo y dinero suficientes para muestrear 10 plantas y aproximadamente un 20% de las mquinas de cada planta. Dados los siguientes datos sobre el tiempo sin funcionar para las mquinas de coser por plantas
Planta 1 2 3 4 5 6 7 8 9 10 Mi so 65 45 48 52 58 42 66 40 56 mi 10 13 9 10 10 12 8 13 8 11 Tiempo sin funcionar (en horas) 5, 7, 9, 0, 11, 2, 8, 4, 3, 5 4, 3, 7, 2, 11, 0, 1, 9, 4, 3, 2, 1, 5 5, 6, 4, 11, 12, 0, 1, 8, 4 6, 4, 0, 1, 0, 9, 8, 4, 6, 10 11, 4, 3, 1, 0, 2, 8, 6, 5, 3 12, 11, 3, 4, 2, 0, 0, 1, 4, 3, 2, 4 3, 7, 6, 7, 8, 4, 3, 2 3, 6, 4, 3, 2, 2, 8, 4, 0, 4, 5, 6, 3 6, 4, 7, 3, 9, 1, 4, 5 6, 7, 5, 10, 11, 2, 1, 4, 0, 5, 4

xi

S2i 5,40 4,00 5,67 4,80 4,30 3,83 5,00 3,85 4,88 5,00 11,38 10,67 16,75 13,29 11,12 14,88 5,14 4,31 6,13 11,80

Estimar el tiempo sin funcionar promedio por mquina y establecer un lmite para el error de estimacin. El fabricante sabe que tiene un total de 4.500 mquinas en todas las plantas. Estimar tambin la cantidad total de tiempo sin funcionar durante el mes pasado para todas las mquinas. Estimar el tiempo sin funcionar promedio por mquina en caso de que no se conozca el nmero total de mquinas.

320 Muestreo estadstico. Conceptos y problemas resueltos

Para estimar el tiempo promedio sin funcionar por mquina tenemos:


x= N n

Mx
i =1

Mi

90 (50 u 5,4 + 65 u 4 + L + 56 u 5) = 4,8 4500 u 10


2

x = N V

()

nM

(1 < f ) u
1 i 2

<X X i i N + n <1 nM 2

M (1 < f 2i mi
2 i

(X )u
j

mi

ij

< xi

mi < 1

10 90 2 1 < 90 90 u 768,38 + u 21990,96 = 0,037094 2 10 u 4500 10 u 4500 2

Un lmite para el error de estimacin puede calcularse a travs del intervalo de confianza para el estimador x 2 0,037094 = 4,8 0,38 . Para la estimacin de la cantidad total de tiempo sin funcionar para todas las mquinas = Mx = 4500 u 4,8 = 21600 , siendo la estimacin de su varianza tenemos el estimador X (X ) = M 2V ( x ) = 4500 2 u 0,037094 = 751153,5 . V Si no se conoce M se estima la media mediante el estimador de razn:
x=

M x
i =1 n i

M
i =1

(50 u 5,4 + 65 u 4 + L + 56 u 5) = 4,6 50 + 65 + L56

10 10 10 2 2 2 2 + R ) = 1< f ( x ) = 1 < f (S 2 S 2 < 2R S ( ) ( M x + x M < 2 x M i xi M i ) = 0,049 V x M xm i i i nM 2 (n <1) i =1 nM 2 i =1 i =1

Se observa que la estimacin por razn, provocada por el desconocimiento de M, origina un error superior, pero no en demasiada cuanta.

8.6.

Para estimar el total de una magnitud en una poblacin de 100 conglomerados se estratifica la misma en dos zonas, rural y urbana, con 60 y 40 conglomerados respectivamente. En la zona rural se selecciona una muestra de cinco conglomerados con probabilidades proporcionales a su tamao Mi y con reemplazamiento, mientras que en la zona urbana se selecciona una muestra sistemtica de cuatro conglomerados con coeficiente de correlacin intramuestral igual a una milsima. Se tiene:
ZONA RURAL Unidad muestral Mi Total 1 7 13 2 6 11 3 8 18 4 4 10 5 5 11 ZONA URBANA Unidad muestral Total 1 21 2 15 3 24 4 20

1) Estimar la media por conglomerado en cada zona y sus errores absoluto y relativo de muestreo. Hallar tambin un intervalo de confianza del 95% para la media por conglomerado en cada zona. 2) Estimar el total en la poblacin y sus errores absoluto y relativo de muestreo.

Muestreo bietpico de conglomerados

321

Comenzaremos por la zona rural, en la cual tenemos definido muestreo unietpico de conglomerados con probabilidades proporcionales a los tamaos y muestreo con reposicin, lo que nos lleva a utilizar el estimador de Hansen y Hurwitz. Tenemos:
1 n X 1 13 11 18 10 11 Xi = 1 n Xi = 1 u 1 n X = i = + + + + = 2,128 HHR MR i nP MR n i MiR MR n i MiR 5 7 6 8 4 5 i

Para estimar la varianza del estimador de la media utilizamos:


Xi < X HHR i =1 P 1 1 i = 1 (X ) = (X )= V V HHR HHR 2 2 2 MR MR n(n < 1) MR
n n 2 2

Xi < M R X HHR i =1 MiR M R = n(n < 1)


n

2 2 2 2 2 Xi 13 11 18 10 11 < X < + < + < 2 , 128 2 , 128 + < 2 , 128 + < 2 , 128 2 , 128 HHR i =1 MiR =7 6 8 4 5 = 0,016 20 n(n < 1)

El error relativo de muestreo en la zona rural ser:


V (X 0,016 HHR ) = = 0,059 6% Cv( X HHR ) = 2,128 X HHR

Un intervalo de confianza al 95% para el gasto medio por hogar en zona rural es:
X V (X 2,376] HHR h_ HHR ) = 2,128 1,96 0,016 = [1,880,

Nos ocupamos ahora de la zona urbana, en la cual tenemos definido muestreo sistemtico con un coeficiente de correlacin intramuestral muy pequeo, lo que nos va a permitir estimar la varianza mediante la frmula del muestreo aleatorio simple. Tenemos entonces los siguientes estimadores:

= 21 + 15 + 24 + 20 = 20 X U 4
1 (21< 20)2 + (15 < 20)2 + (24 < 20)2 + (20 < 20)2 2 S 4 3 V ( XU ) = (1 < f ) = 1 < = 3,15 n 40 4

El error relativo de muestreo en la zona urbana ser:


) V (X 3,15 U Cv ( X U ) = = = 0,0887 8,87% 20 XU

Un intervalo de confianza al 95% para el gasto medio por hogar en zona urbana es:

322 Muestreo estadstico. Conceptos y problemas resueltos

h V (X ) = 20 1,96 3,15 = [16,5214, 23,4786] X U _ U

Para estimar el total de la poblacin utilizamos el muestreo estratificado, que es el definido en primera etapa, teniendo en cuenta que en segunda etapa estn definidos muestreo unietpico de conglomerados en la zona rural, y muestreo sistemtico en la zona urbana. Tenemos:
= N x = 60 X X st h h HHR + 40 X U = 60 u 2,128 + 40 u 20 = 927,68
h =1 n

) + 402V ( X ) = 602 u 0,016+ 402 u 3,15 = 5097,6 ) = N 2V ( x ) = 602V ( X V(X st h h HHR U


h =1

) V (X 5097,6 st v( X )= C = = 0,077 7,7% st 927,68 X st

8.7.

En las 10 regiones de un pas se efecta muestreo en dos etapas (1 etapa con reposicin). En la primera etapa se obtienen tres regiones de 50, 60 y 80 distritos. En la segunda etapa se seleccionan cinco distritos de cada regin de la primera etapa en los que se mide el nmero de habitantes condenados a cadena perpetua, y se obtienen los siguientes datos:
Unidades primarias Tamaos Valores observados X ij (M i ) de la muestra (n = 3) mi = m = 5 REGIN 1 8, 6, 12, 14, 10 50 REGIN 2 REGIN 3 60 80 8, 10, 14, 14, 16 8, 10, 10, 16, 12

Sabiendo que el total de distritos es M = 600, se pide formar un estimador insesgado del total X de condenados a cadena perpetua y calcular el valor particular correspondiente a los datos del problema en los siguientes casos: 1) Muestreo con probabilidades iguales en las dos etapas. 2) Muestreo con probabilidades proporcionales al tamao en primera etapa. 3) Estimar el error de muestreo en ambos casos. Para probabilidades iguales en ambas etapas el estimador del total es:
=N X n

M
i

xi =

10 (50 u 10 + 60 u 12,4 + 80 u 11,2) = 7133,33 5 7134 condenados 3

La estimacin de la varianza es:


2 X n 1 n i <X N X N M x < i i N2 i 1/ N i n i i X = = V = n(n < 1) n(n < 1) n n 2

( )

1 n < M x M i xi i i n i N2 i = n <1 n
n

X
i

<X i n <1
i

100 (50u10 < 713,33) 2 + (60u12,4 < 713,33) 2 + (80u11,2 < 713,33) 2 7 = 2.19385u10 3 2

Muestreo bietpico de conglomerados

323

Para probabilidades proporcionales a los tamaos en primera etapa se tiene:


n n = 1 M i xi = 1 M i xi = M X HH n i Pi n i Mi M n

x
i

600 (10 + 12,4 + 11,2) = 6720 condenados 3

La estimacin de la varianza es:


X i <X M /M = X = i i V n(n < 1)
n 2

( )

M M M i xi < n M i i n(n < 1)


n 2

2 n 1 n 2 x M xi < xi i i n i i = = n(n < 1) n

6002 (10 < 11,2) + (12,4 < 11,2) + (11,2 < 11,2) = 172800 6
2 2

Se observa que el error de muestreo es mucho menor en el caso de utilizar probabilidades proporcionales a los tamaos.

8.8.

Consideramos las 1100 granjas de cerdos de una comarca que se estratifican formando 2 estratos. El primero de ellos (granjas en zona rural) tiene 1.000 granjas de 50 cerdos con 4 meses de edad del que se extrae una muestra de 5 granjas, en cada una de las cuales se obtiene a su vez una submuestra de 6 cerdos. Los pesos promedios (en arrobas) de los 6 cerdos con 4 meses de las 5 granjas anteriores extradas del primer estrato son los siguientes: x i1 = {3, 5, 2, 4, 6} i = 1, 2, ..., 5 y S12w =1,5. El segundo estrato (granjas en permetro urbano) tiene 100 granjas de 40 cerdos con 4 meses cada una del que se extrae una muestra de 6 granjas, en cada una de las cuales se obtiene a su vez una submuestra de 4 cerdos. Los pesos promedios (en arrobas) de los 4 cerdos con 4 meses de las 6 granjas anteriores extradas del 2 segundo estrato son los siguientes: x i 2 = {3, 4, 3, 5, 3, 3} i = 1, 2, ..., 6 y S 2 w = 1,33. A partir de esta informacin, estimar el peso promedio de los cerdos a los 4 meses en las granjas de la comarca y sus errores absoluto y relativo de muestreo considerando muestreo sin reposicin y probabilidades iguales en todas las etapas. Hallar tambin un intervalo de confianza para el peso promedio de los cerdos a los 4 meses en las granjas de la comarca al 95%. Estamos ante el tpico diseo complejo de muestreo bietpico de conglomerados (granjas de cerdos) con estratificacin de las unidades de primera etapa (las granjas) en dos estratos. Las unidades elementales de segunda etapa son los cerdos con 4 meses de las granjas. Inicialmente estimamos la media y su varianza en el primer estrato. Tenemos:
1 n1 20 =4 5

x1 =

x
i

i1

2 = S b

m1 (xi1 < x1 )
i

n1 < 1

= 15

2 2 5 15 5 6 1,5 (x ) = (1 < f ) S1b + f (1 < f ) u S1w = V + 1 < 1 < u = 0,5 11 12 1 11 n1m1 n1m1 1000 30 1000 50 30

324 Muestreo estadstico. Conceptos y problemas resueltos

Ahora estimamos la media y su varianza en el segundo estrato. Tenemos:


1 x2 = n2 21 xi 2 = = 3,5 6 i

2 = S 2b

m 2 (xi 2 < x 2 )
i

n2 < 1

= 2,8

2 2 6 2,8 6 4 1,33 x = (1 < f ) S2b + f (1 < f ) u S2w = = 0,113 V + 1 < 1 < u 21 22 2 21 n2m2 n2m2 100 24 100 40 24

( )

El estimador de la media estratificado ser:


x st = W h x h = W1 x1 + W 2 x 2 =
h =1 2

100 1000 u4+ u 3,5 = 3,685 arrobas 1100 1100

La estimacin de la varianza del estimador de la media valdr:


2 1000 100 (x ) = W 2V (x ) = W 2V (x ) + W 2V (x ) = V u 0,5 + u 0,113 = 0,415 st h h 1 1 2 2 h =1 1100 1100 2 2

El error relativo de muestreo se estimar mediante:


v( x ) = V ( x st ) = 0,415 = 0,1748 (17,48%) C st x st 3,685

El intervalo de confianza al 95%, suponiendo normalidad, ser:


( x ) = 3,685 1,96 0,415 = [2,42, 4,95] x st h_ V st

8.9.

Una empresa tiene que realizar una encuesta en la que las unidades primarias de muestreo son las secciones censales y las unidades de segunda etapa son las familias pertenecientes a las secciones censales. La empresa dispone de agentes entrevistadores que residen en la capital de cada provincia en la que tiene sucursales. Se supone que el coste de enviar un agente a una seccin censal es de 500 euros y el de realizar una entrevista a una familia es de 50 euros. Si existe un presupuesto de 3000000 de euros para realizar la encuesta siendo la caracterstica a estimar la proporcin de poblacin activa respecto del total, y por encuestas anteriores se tiene una estimacin de dicha proporcin del 38% y una estimacin del coeficiente de correlacin intraconglomerados de 0,05, se pide: 1) Considerando muestreo con reposicin, plantear el problema de Lagrange que permite calcular el nmero ptimo de secciones censales y el de familias a entrevistar dentro de cada una. 2) Hallar el valor de los nmeros ptimos citados para el coste total dado.

Muestreo bietpico de conglomerados

325

Para plantear el problema de Lagrange adecuado, consideramos la funcin de coste de campo C = c1n + c2 nm donde c1 = 500 es el coste de enviar un agente a una seccin censal y c2 = 50 es el coste de realizar una entrevista a una familia en segunda etapa. Como el presupuesto total para realizar la encuesta es de 3000000 de euros, la funcin de coste ser:

3000000 = 500n + 50nm


Como la caracterstica a estimar es el porcentaje de poblacin activa respecto del total, utilizaremos la varianza de la proporcin para denotar el error, es decir:

$$ $ ) = (1 < f ) PQ (1 + (m < 1)b ) V (P nm


El problema se resuelve minimizando la varianza para el coste dada a travs del problema de optimizacin de Lagrange:
) = (1 < f ) 0,38(1.0,38) (1 + (m < 1)0,05) MinV ( P c1 1 < b 500 1 < 0,05 u = u 14 familias nm m = c2 b 50 0,05 3000000 = 500n + 50nm

3000000 = 500n + 50nm n =

3000000 3000000 = = 2500 secciones censales 500 + 50m 500 + 50 u 14

8.10.

Una empresa quiere estimar la proporcin de mquinas que han sido retiradas del proceso de produccin debido a reparaciones mayores. Para ello utiliza muestreo en dos etapas considerando unidades de primera etapa las plantas de que dispone y unidades de segunda etapa las mquinas de las plantas. Se dispone de tiempo y dinero para muestrear 10 plantas y se obtiene que los tamaos de las plantas Mi, las mquinas muestreadas en cada planta en segunda etapa mi y las proporciones muestrales de mquinas que requieren reparaciones mayores son los que se exponen en la siguiente tabla:

Porcentaje de mquinas Planta 1 2 3 4 5 6 7 8 9 10 Mi 50 65 45 48 52 58 42 66 40 56 mi 10 13 9 10 10 12 8 13 8 11 ) con reparacion es mayores ( P i 0, 40 0,38 0, 22 0,30 0,50 0, 25 0,38 0,31 0, 25 0,36

Estimar la proporcin de mquinas que han sido retiradas del proceso de produccin debido a reparaciones mayores para todas las plantas y establecer un lmite para el error de estimacin al 95%.

326 Muestreo estadstico. Conceptos y problemas resueltos

Al no conocerse el valor M se utilizar el estimador de la proporcin por razn al tamao siguiente:

= P

M
i =1 n i =1

P i
i

= 0,34

cuyo error de muestreo puede estimarse mediante:


P = (1 < f 1 V nM

()

) M u
i

2 i

<P ) (P
i

n <1

1 nNM 2

PQ M (1 < f ) u m < 1 = 0,0081


n i 2 i 2i i i i

Un lmite para el error de estimacin al 95% ser:


2 V P = 0,34 0,056 P

()

Se estima entonces que la proporcin de mquinas involucradas en reparaciones mayores es de 0,34, con un lmite para el error de estimacin de 0,056.

Muestreo bietpico de conglomerados

327

EJERCICIOS PROPUESTOS
8.1.
Se desea estimar el consumo de los hogares espaoles a travs de una muestra bietpica formada por conglomerados de 500 hogares cuya unidad primaria de muestreo es la seccin censal. El coeficiente de correlacin intraconglomerados es 0,1. El coste de preparacin de listados y planimetra de cada seccin censal a incluir en la muestra es de 5.000 unidades monetarias, y el coste de entrevista por hogar es de 1000 unidades monetarias, no considerndose ms componentes en la funcin de coste total. Si se dispone de un presupuesto global de 10000000 de unidades monetarias, se pide: 1) Especificar la funcin de coste total y plantear el problema de optimizacin con restricciones asociado. 2) Cules seran los tamaos de muestra en cada etapa que optimizasen el diseo? Se entiende por diseo ptimo aquel que logra la mxima precisin dentro del presupuesto fijado. 3) Si se estratifican las secciones censales en dos estratos del mismo tamao correspondientes a zona rural y zona urbana, de modo que la variabilidad del consumo de los hogares medida a travs de la varianza es tres veces superior en la zona urbana que en la rural, cmo se distribuira la muestra en cada estrato y en cada etapa para optimizar el diseo?

8.2.

Un investigador desea muestrear tres hospitales de entre los seis que existen en una ciudad, con el propsito de estimar la proporcin de pacientes que han estado (o estarn) en el hospital por ms de dos das consecutivos. Puesto que los hospitales varan en tamao, stos sern muestreados con probabilidades proporcionales al nmero de sus pacientes. En los tres hospitales muestreados se examinar un 10% de los registros de los pacientes actuales para determinar cuntos pacientes permanecern por ms de dos das en el hospital. Con la informacin sobre los tamaos de los hospitales dada en la tabla adjunta se selecciona una muestra de tres hospitales con probabilidades proporcionales al tamao.
Hosp. Pacien. Interv. 1 328 1-328 4 220 870-1089 Hosp. 2 5 Pacien. 109 280 Interv. Hosp. 329-437 3 1090-1369 6 Pacien. 432 190 Interv 438-869 1370-1559

Puesto que sern seleccionados tres hospitales, tres nmeros aleatorios entre el 0001 y el 1559 deben ser seleccionados de la tabla de nmeros aleatorios. Nuestros nmeros elegidos son 1505, 1256 y 0827. Qu hospitales sern elegidos para la muestra? Supngase que los hospitales muestreados dieron los siguientes datos sobre el nmero de pacientes con permanencia de ms de dos das: Hospital N de pacientes muestreados a 43 b 28 c 19 N con ms de dos das de permanencia 25 15 8

Estimar la proporcin de pacientes con permanencia superior a dos das para los seis hospitales y establecer un lmite para el error de estimacin.

328 Muestreo estadstico. Conceptos y problemas resueltos

8.3.

Supongamos que cinco investigadores toman muestras independientes de igual tamao constituidas por pequeas parcelas de un campo de cultivo y obtienen estimaciones del rendimiento del campo e. Sean estas estimaciones: 97, 96, 100, 98, 94. Si tomamos como estimador de e la media de las cinco estimaciones, calcular el error de muestreo relativo. Realizar el mismo clculo suponiendo que las muestras son de distintos tamaos, de 3, 1, 10, 10 y 1, respectivamente Realizamos muestreo bietpico en una poblacin de 10 conglomerados de tamaos desiguales. En la primera etapa se toman tres unidades primarias y en la segunda etapa se toman cinco unidades dentro de cada unidad primaria. Hallar el estimador lineal insesgado del total poblacional en el caso de muestreo sin reposicin con probabilidades iguales en las dos etapas. Probar que si se aplica el teorema de Durbin para la estimacin de la varianza del estimador del total se tiene:
3 3 (X ) = 14 M 2 x 2 < 2 s 2 M ( M < 5) < 7 M M x x V i i i i i i j i j 45 i & j 45 i =1 3 i =1 2 la cuasivarianza dentro de la unidad primaria i-sima de siendo xi el total muestral y si2 = S i la muestra. Si consideramos muestreo con reposicin en la segunda etapa, cul es el estimador del total? Qu expresin toma el estimador de su varianza?

8.4.

8.5.

Una cadena de supermercados tiene tiendas en 32 ciudades. Un director de la compaa quiere estimar la proporcin de tiendas en la cadena que no satisfacen un criterio de limpieza especfico. Las tiendas dentro de cada ciudad poseen caractersticas similares, por lo que el director selecciona una muestra por conglomerados en dos etapas que conmtiene la mitad de las tiendas dentro de cada una de las cuatro ciudades. La tabla siguiente muestra los datos recogidos.

Ciudad 1 2 3 4

N de tiendas en la ciudad 25 10 18 16

N de tiendas muestreada s 13 5 9 8

N de tiendas que no satisfacen el criterio de limp ieza 3 1 4 2

Estimar la proporcin de tiendas que no satisfacen el criterio de limpieza y establecer un lmite para el error de estimacin al 95% de confianza.

CAPTULO MUESTREO BIFSICO Y MUESTREO EN OCASIONES SUCESIVAS

OBJETIVOS
1. Presentar el concepto de muestreo bifsico. 2. Analizar los estimadores y sus errores en muestreo bifsico con estratificacin. 3. Analizar los estimadores y sus errores en muestreo bifsico para estimaciones de razn. 4. Analizar los estimadores y sus errores en muestreo bifsico para estimaciones de regresin. 5. Analizar los estimadores y sus errores en muestreo bifsico para estimaciones de diferencia. 6. Estudiar los estimadores de mnima varianza en el muestreo en ocasiones sucesivas.

330 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. Muestreo bifsico. 2. Muestreo bifsico para estratificacin. Estimadores, varianzas y estimacin de varianzas. 3. Muestreo bifsico para estimadores de razn. 4. Muestreo bifsico para estimadores de regresin. 5. Muestreo bifsico para estimadores de diferencia. 6. Mestreo en ocasiones sucesivas. 7. Estimadores de mnima varianza en el muestreo en ocasiones sucesivas. 8. Problemas resueltos. 9. Ejercicios propuestos.

Muestreo bifsico y muestreo en ocasiones sucesivas

331

MUESTREO BIFSICO
El muestreo doble o bifsico se utiliza cuando queremos obtener estimadores de alguna variable X y disponemos de informacin adicional de otra variable de modo similar a lo que ocurra en los mtodos de estimacin indirecta. En la prctica, el muestreo doble se lleva a cabo seleccionando en una primera fase una muestra, relativamente grande, en la que a bajo coste pueden observarse una o varias caractersticas generales de las unidades que nos proporcionan la informacin que necesitamos para el estudio de nuestra caracterstica objetivo. En una segunda fase seleccionamos una submuestra de la primera en la que observamos ya la caracterstica objeto de estimacin. Esta tcnica se conoce con el nombre de muestreo en dos fases, muestreo doble o muestreo bifsico. Para fijar notacin consideramos: 1 fase. Se toma una muestra grande de tamao n relativa a la variable auxiliar Yi para estimar por ejemplo Y u otras caractersticas relativas a la variable Yi con bajo coste. 2 fase. Se toma una muestra relativa a la variable en estudio Xi de tamao n (generalmente submuestra de la muestra preliminar n< n) con coste mucho ms alto. El uso de esta tcnica de muestreo depende de los costes. Si la observacin de la caracterstica Xi que nos interesa no tiene coste, o es muy bajo, sencillamente tomaramos una muestra del tamao no necesario para la precisin deseada y con ella haramos las estimaciones relativas a Xi. Supongamos que disponemos de un presuspuesto total C, que el coste por unidad de la primera muestra, de tamao n, es c y que el coste por unidad de la segunda muestra, de tamao n < n, es c. Frecuentemente c es mucho ms pequeo que c, bien sea porque la primera muestra se utiliza para obtener unos pocos datos generales de las unidades (en campo o en oficina, si se dispone de un fichero o registro) o bien porque la observacin de la caracterstica objetivo implica un proceso de observacin ms costoso. En estas condiciones, si tomamos una sola muestra, tendremos C = cno, y si hacemos muestreo en dos fases C = cn + cn. Supongamos que los costes totales por el procedimiento bifsico y por el normal (aleatorio) son los mismos, esto es, cno = cn + cn. Igualando los dos costes totales, se obtiene: no = n +

c' n' , lo que nos dice que con la tcnica de dos fases la c

observacin efectiva (la referida a la variable Xi) se hace en una muestra de tamao n, menor que el tamao no de la muestra aleatoria simple correspondiente en una sola fase con el mismo coste total. Luego al introducir las dos fases el tamao de muestra necesario es ms pequeo que si hubiese una sola fase (muestreo aleatorio normal) y hay una prdida en la precisin de los estimadores (al disminuir el tamao de la muestra). Se trata de decidir si compensa la disminucin del tamao efectivo de la muestra, con el incremento de informacin adquirido en la primera fase (lo que provocar prdida de precisin en las estimaciones relativas a Xi). Para ello debe calcularse la varianza correspondiente a muestreo doble y compararla con la del muestreo en una sola fase

m2
no

en

caso de estimacin de la media. Es obvio que cuanto menor sea la relacin c/c ms favorable es el muestreo doble. Ello es debido a que no < n = (c / c ) n mientras menor sea c / c ms cerca estar n de no y menos disminucin habr del tamao de muestra comparado el bifsico y el aleatorio simple, siendo la prdida en precisin de los estimadores menor al introducir el bifsico.

332 Muestreo estadstico. Conceptos y problemas resueltos

La adecuacin del muestreo bifsico depende de si lo que se gana en precisin de los estimadores al introducir la ayuda de la muestra grande compensa la prdida en precisin debida a la reduccin del tamao de la muestra para estimar Xi, esto es, la ayuda de la variable auxiliar Yi. La primera muestra de tamao n proporciona ciertos datos buenos basados en la variable auxiliar Yi para que las estimaciones finales (las estimaciones de Xi ) sean precisas. Si no hubiese variable auxiliar Yi el tamao de la muestra para estimar Xi ser no, y al introducir la variable auxiliar el tamao de la muestra sera n < no .

MUESTREO BIFSICO PARA ESTRATIFICACIN. ESTIMADORES, VARIANZAS Y ESTIMACIN DE VARIANZAS


Partimos de una poblacin estratificacada en L clases (estratos). La primera muestra (primera fase) es aleatoria de tamao n seleccionada de entre las n unidades de la poblacin. Sea Wh = Proporcin de elementos de la poblacin que caen en el estrato h, que es desconocida inicialmente.

Wh =

N h Nmero de elementos poblacionales en el estrato h = N Nmero total de elementos de la poblacin

Consideremos ahora la proporcin de elementos de la primera muestra que cae en el estrato h:

= n' h = Nmero de elementos de la primera muestra que caen en el estrato h W h n' Nmero total de elementos de la primera muestra
Hay que tener presente que si consideramos selecciones diferentes de la primera $ resulta ser un estimador muestra (con n prefijado) obtenemos diferentes valores de nh y W h insesgado de Wh (porque la proporcin muestral en muestreo aleatorio simple es un estimador insesgado de la proporcin poblacional, lo mismo que la media muestral es un $ = W estando estimador insesgado de la media poblacional). Tenemos entonces que E W h h la esperanza referida a las muestras posibles de n unidades de entre las N de la poblacin. A efectos de clarificar la notacin especificamos lo siguiente:

( )

nh = n de unidades de entre las n de la muestra de primera fase que caen en el estrato h para h = 1, 2, ..., L

n' = n' h y n = nh
h =1 h =1

La segunda muestra (segunda fase) es una muestra aleatoria estratificada de tamao n. Consiste en tomar una submuestra aleatoria de tamao nh ) n' h en cada estrato independientemente (o sea, las nh las elegimos de entre las nh para valores de h = 1, ..., L). Tendremos

$ LW $ LW $ n = nh . Ahora n es dado y n1 ....nh ....nL son fijos y W 1 h L


h =1

tambin sern fijos (por serlo nh y n) y lo que se hace es considerar todas las submuestras aleatorias de nh unidades que pueden extraerse de entre las nh unidades dadas.

Muestreo bifsico y muestreo en ocasiones sucesivas

333

Estimadores y varianzas = El estimador usual de la media en muestreo estratificado es X

W x
h h

con Wh =

$ obtenidos de la primera muestra, y con la En muestreo doble los Wh se estiman por los W h xh ; de esta forma resulta el estimador para la segunda muestra estimamos las medias x h = nh
media:

Nh . N

$ = W X $h x h
h

$ = n' h ; W h n'

Utilizaremos la notacin EW ' (T ) para expresar la esperanza matemtica de un estadstico T, condicionada al conjunto de muestras de primera fase en las cuales n1, ....,nh , ..., n son fijos, o $ ,L ,W $ ,L ,W $ son fijos. Anlogamente V ( T ) lo que es lo mismo, para un n dado, W W' 1 h L expresar la varianza condicionada. La varianza del estimador de la media sin reposicin en las dos fases es:
2 = (1 < f ) S h W 2 + g 'Wh (1 < Wh ) + g ' W (X < X )2 V h X h h h h nh n' n' h

donde g es el factor de finitud g = (N < n)/(N <1). Por otro lado, Rao expres esta varianza de la media de la siguiente forma:
2 S h2 1 = N < n' u S + 1 V < u W X h n' N n' h i h

; ih =

nh ' nh

Para muestreo es con reposicin en primera fase tendremos:


2 = (1 < f ) S h W 2 + Wh (1 < Wh ) + 1 W (X < X )2 V h X h h h h nh n' n' h

frmula aproximada para n pequeo respecto de N en caso sin reposicin en segunda fase. Para muestreo con reposicin en las dos fases tendremos:
2 = m h W 2 + Wh (1 < Wh ) + 1 W (X < X )2 V X h h h h nh n' n' h

frmula aproximada para nh pequeo respecto de Nh, en todo h, y n pequeo respecto de N.

$ . $ ) = N 2V X V( X

$ = NX y su varianza es Para el total X = NX , el estimador insesgado es X

( )

334 Muestreo estadstico. Conceptos y problemas resueltos

Si la muestra de primera fase es de tamao n=N, esto es, se observan todas las unidades de la poblacin para efectuar la estratificacin, la frmula general de la varianza del estimador en muestreo doble se convierte en:
2 $ = ( 1 < f )W 2 S h V X h h nh h

( )

; g' = 0

que coincide con la del muestreo estratificado habitual (una sola fase). Adems se observa que n aparece dividiendo, y en consecuencia, cuanto mayor es n (n < N ) la prdida de precisin por el uso de muestreo doble disminuye. Obviamente el coste aumenta, razn por la cual conviene estudiar los tamaos y la afijacin ptimos en funcin del coste. Para proporciones y totales de clase tenemos: Si se desea estimar una porporcin P en la poblacin, siendo Ph la correspondiente al h-simo estrato, el estimador insesgado en muestreo doble es:

$ = W $ p P h h
h

ph = proporcin muestral en segunda fase.

La varianza (sin reposicin en las dos fases), aplicando el resultado anterior, ser:

Ph Qh 2 g ' Wh ( 1 < Wh ) g ' 2 $ Wh + + Wh ( Ph < P) V ( P) = (1 < f h ) nh n' h n' h


con la aproximacin S h2 =
Nh Ph Qh 5 Ph Qh . Nh <1

En muestreo con reposicin en las dos fases, o sin reposicin y tamaos muestrales pequeos respecto de los correspondientes poblacionales ( f h 5 1; g ' 5 1) , se tiene:

Ph Qh 2 Wh ( 1 < Wh ) 1 2 $ + Wh ( Ph < P ) Wh + V ( P) = nh n' h n' h

$ = NP $ y su varianza Para el total de clase, A = NP , el estimador es A $ = N 2V P $ . V A

( )

( )

Para afijacin proporcional, si en la muestra de segunda fase asignamos a cada estrato un tamao muestral nh proporcional al tamao del estrato, se tiene nh = Wh n , resultando para la varianza del estimador la frmula:

$ = 1 ( 1 < f ) S 2 W + g ' ( 1 < Wh ) + g ' W ( X < X ) 2 V X h h h h h n h n' n' h

( )

$ n. En la prctica, para efectuar la afijacin a los estratos utilizaremos nh = W h

Muestreo bifsico y muestreo en ocasiones sucesivas

335

En muestreo con reposicin se tiene:

1 2 $ = 1 m 2W + 1 V X m h2 ( 1 < Wh ) + Wh ( X h < X ) h h n h nn' h n' h


que puede aproximarse por:

( )

$ = 1 W m2 + 1 W ( X < X)2 V X n h h h n' h h h


Para afijacin ptima tenemos:
= 1 W m + 1 W (X < X )2 V X h h h h n n' h h
2

( )

Adems, para determinar los tamaos ptimos n y n correspondientes a un coste total dado tales que V X

( $)

sea mnima, escribimos la funcin de Lagrange:


2

1 1 2 q = A + B + h ( c' n'+cn < C ) con A = Whm h y B = Wh ( X h < X ) n n' h h


Derivando respecto de n y n y h se tiene:

,q A A = < 2 + h c = 0 h = 2 n = ,n n cn ,q B B = < 2 + h c' = 0 h = n ' = ,n ' n' c ' n' 2 ,q = c' n'+ cn < C = 0 V ,h pt .

Estimacin de varianzas Tenemos:


2 = n' s h V X n'<1 h nh

( (

C A Ac + Bc' C B

) ) )
2

c'

()

= X

Ac + Bc'

Ac + Bc' C

2 W < h + 1 W (x < X )2 W h h n n' n' h

El factor

n' prcticamente es prximo a la unidad si n no es pequeo. Tambin ( n'<1)

el trmino que aparece en segundo lugar en la frmula de la estimacin de la varianza puede ser despreciable respecto de los otros dos, ya que aparece el producto nh u n' en el denominador. Entonces resulta la aproximacin:

336 Muestreo estadstico. Conceptos y problemas resueltos


2 1 2 sh x <X V X 5 Wh + W h h n h n' h

()

Y, por ltimo, tambin en esta expresin el segundo sumando ser pequeo respecto del primero para valores grandes de n, resultando como frmula aproximada ms sencilla:
2 5 W 2 sh X V h nh h

()

que es la correspondiente a muestreo estratificado en una sola fase, sustituyendo W h por su . estimacin W h

$ o del total de clase A , En caso de estimar la varianza de la proporcin P sustituimos en la frmula para la varianza, o en sus aproximaciones, cuando sean vlidas, los siguientes valores:
2 sh ph q h = ; nh nh < 1

(x

$ <X

$)2 = ( ph < P

MUESTREO BIFSICO PARA ESTIMADORES DE RAZN


El estimador usual de razn para la media X utiliza como informacin conocida previamente la media Y (o el total) de una caracterstica Y, definida en todas las unidades de la poblacin, elegida convenientemente de modo que su relacin con X sea lineal al menos aproximadamente. El muestreo doble utiliza la primera muestra de tamao n para obtener una buena estimacin de Y , o de Y, y la segunda muestra de tamao n para estimar x e y . De esta forma , el estimador de razn para la media en muestreo doble es:

$ = x u y' ; X R y

y ' = Media de la primera muestra.

En el caso de que las muestras de las dos fases sean independientes, se tiene:

1 = 1{ 2 2 V m x2 + R2m y < 2Rm xy }+ R2m y XR n n'


frmula vlida para muestreo con reposicin. En el caso sin reposicin sustituimos varianzas y covarianzas por cuasivarianzas y cuasicovarianzas, multiplicando el primer sumando por el factor de finitud en segunda fase y el segundo sumando por el de primera fase. Para el caso en que la segunda muestra de tamao n es una submuestra aleatoria de la primera (n ) n), resulta:
1 = 1{ 2 2 } V m x2 + R 2m y < 2 Rm xy }+ {2 Rm xy < R 2m y XR n n'

Muestreo bifsico y muestreo en ocasiones sucesivas

337

Para estimar el total en muestreo doble, tendremos:

$ $ = NX X R R

$ $ ) = N 2V X ; V( X R R

( )

Para estimar la varianza, dado que en la segunda muestra de tamao n obtenemos 2 y Cov(X,Y) observaciones de la variable conjunta (X,Y), podemos calcular estimaciones de m y
2 como s x = n 1 n ( X i < x )2 y s xy = 1 ( X i < x )(Yi < y ) , y puesto que la primera n <1 1 n <1 1

2 muestra es de tamao n > n, nos permite una buena estimacin de m y


2 sy =

mediante

1 2 $. (Yi < y ') . Para la razn R, tomaremos la estimacin R n'<1 1


n'

MUESTREO BIFSICO PARA ESTIMADORES DE REGRESIN

$ = x + K ( Y < y ) , donde K es una constante prefijada e Y es la media poblacional de la X variable auxiliar. Los estimadores x , y se obtienen de las observaciones de una muestra ( X i , Yi ) de tamao n. En muestreo doble, al suponer desconocida Y , utilizamos la primera muestra de tamao n para estimar Y , estimacin dada por y ' . Con la muestra de tamao n en segunda fase estimamos x , y , formando entonces el estimador en muestreo doble por
regresin para la media poblacional:

El estimador usual para la media en muestreo indirecto (en una fase) por regresin lineal es

= x + K ( y '< y ) X rg
En esta situacin, la segunda muestra puede ser independiente de la primera o la segunda muestra puede ser una submuestra aleatoria n < n de la primera. Si las muestras de las dos fases son independientes, se tiene:
2 2 = 1 (m 2 + K 2m 2 < 2 Km ) + K m y V X rg y xy n x n'

Para el caso en que la segunda muestra de tamao n es una submuestra aleatoria de la primera (n ) n), resulta:

1 2 1 2 2 2 2 V X rg = (m x + K m y < 2 Km xy ) + (2 Km xy < K m y ) n n'

m xy = Sea el valor ptimo de K = b = 2 estimado por b my

(X
1

< x )(Yi < y )

(X
1

.
< x ) (Yi < y )
2 2

338 Muestreo estadstico. Conceptos y problemas resueltos

Se obtiene en ambos casos (muestras independientes y segunda muestra submuestra de la primera) la expresin para la varianza ptima del estimador bifsico por regresin:
2 2 2 2 2 = (1 < l )m x + l m x < m x V X rl n n' N

Una estimacin para la varianza ptima es la siguiente:


2 2 2 2 = S x, y + S x < S x, y < S x V X rl n n' N
2 = S x, y
n 1 n 2 2 ( X < x ) < b (Yi < y ) 2 i n < 2 i =1 i =1 n 2 = 1 ( X < x)2 S x i n <1 i =1

MUESTREO BIFSICO PARA ESTIMADORES DE DIFERENCIA


El estimador por diferencia en muestreo doble resulta del estimador de regresin haciendo K = 1, por lo que toda la teora anterior es vlida haciendo K=1, resultando el estimador valor 1 en las varianzas del estimador por regresin.

$ = x + ( y '< y ) . Anlogamente, las frmulas de las varianzas se obtienen aplicando a K el X d

MUESTREO EN OCASIONES SUCESIVAS


El muestreo en ocasiones sucesivas es adecuado cuando estamos interesados en estudiar la evolucin de una determinada caracterstica de la poblacin a lo largo del tiempo (como, por ejemplo, la produccin industrial, los salarios, la poblacin activa, etc.), para lo que se toman peridicamente muestras del mismo colectivo. En esta situacin es habitual que un objetivo sea estimar el cambio producido en la variable estudiada desde la ocasin anterior, otro objetivo puede ser estimar el valor promedio de la media sobre las dos ocasiones, e incluso otro objetivo puede ser estimar la media para la ocasin ms reciente. Inicialmente puede disearse una muestra que permanece fija de una ocasin a otra, pero, aunque metodolgicamente sta es la situacin ms ventajosa, tiene el inconveniente de que las personas o entidades encuestadas son reacias a permanecer por un tiempo indefinido en dicha muestra. Para tratar de resolver este problema se utiliza un procedimiento que consiste en sustituir, en cada perodo de encuesta, una parte de la muestra, lo que da lugar a la denominada rotacin de la muestra. Conviene observar de pasada que esto no siempre puede practicarse, ya que, cuando se trata de unidades muy grandes (grandes almacenes, siderrgicas, astilleros, etc.), a veces una o unas pocas contribuyen al total estimado en una cantidad superior a todas las dems juntas. En este caso prescindiramos del muestreo incluyendo estas unidades crticas en un estrato de unidades autorrepresentadas (de probabilidad 1). Adicionalmente surge la pregunta: Con qu frecuencia y de qu manera debera cambiarse la muestra conforme progresa el tiempo? Otro problema que puede plantearse es el de la estimacin ptima de la segunda ocasin, utilizando las informaciones disponibles, tanto de la ocasin presente como de la anterior. En cualquier caso el valor X, que toma la variable en la unidad A, puede cambiar de una ocasin a la siguiente, desempeando un papel importante en esta teora el coeficiente de correlacin lineal entre los valores de la variable en una y otra ocasin. De todas formas, las unidades de la muestra en una ocasin pueden ser las mismas que en la ocasin anterior, algunas nuevas y otras permanecientes y seleccionadas independientemente de nuevo todas.

Muestreo bifsico y muestreo en ocasiones sucesivas

339

Estimacin del cambio entre ocasiones sucesivas


Supongamos que se pretende estimar el cambio de la media entre dos ocasiones, que designaremos por t1 y por t2, con una muestra de n unidades. Si utilizamos el estimador simple del cambio:

,$ = x 2 < x1 =

1 n ( x < x1i ) n i 2i

podemos optar entre las siguientes alternativas: a) Utilizar la misma muestra, denominada panel, en ambas ocasiones. b) Mantener en la segunda ocasin c unidades de la primera muestra, eliminar n<c y aadir n<c nuevas unidades. c) Utilizar en la segunda ocasin una muestra independiente de la primera. La posibilidad a) nos permitira conocer los cambios individuales entre las dos ocasiones. Este esquema presenta serias dificultades cuando hemos de medir un carcter en ocasiones sucesivas. Prescindiendo del caso en que las mediciones fuesen destructivas, sera muy difcil mantener indefinidamente las mismas unidades, y aun en el caso de que fuese posible no sera deseable por los sesgos que una exposicin continuada a los mtodos de encuesta pueden originar en la conducta de los entrevistados. En este sentido puede decirse que la muestra se contamina con el tiempo.

n < c = c el nmero de las no comunes, y con los subndices 1 y 2 las correspondientes

Para la posibilidad b), si representamos por c el nmero de unidades comunes, por

ocasiones, se puede hacer la representacin grfica siguiente sobre los solapamientos en los totales muestrales en ambas ocasiones.

Ocasin t1 Ocasin t 2

@ x1c A @ x1c A @ x2c A @ x2c A

Las medias en ambas ocasiones son:

x1c + x1c x1c x1c n < c c = + = x1c + x1c n n n n n x + x2c x2c x2c n < c c x2 = 2c = + = x2c + x2c n n n n n x1 =
y prescindiendo del factor de correccin para poblaciones finitas 1 < f y suponiendo por comodidad que la cuasivarianza poblacional en las dos ocasiones es la misma, tendremos para las varianzas y covarianzas las expresiones:

S2 S2 , V (x2 ) = V ( x1 ) = n n 2 c S S c2 S2 c S2 cov( x1 , x 2 ) = 2 u cov( x1c , x 2 c ) = l12 u u u 2 = l12 u u = l12 u u/ c n n n n c c n

340 Muestreo estadstico. Conceptos y problemas resueltos

Sustituyendo estos valores en la varianza de ,$ tenemos:

S2 S2 S2 S2 + <2 l12/ c = 2 [1 < l12/ c ] V , = V ( x1 ) + V ( x 2 ) < 2 cov( x1 x 2 ) = n n n n


siendo l12 el coeficiente de correlacin entre los valores comunes a ambas ocasiones y

()

/ c la proporcin de unidades comunes. De esta expresin deducimos que para l12 > 0 la
ganancia en precisin es proporcional a / c l12 correspondiendo la mxima ganancia a los valores

l12 = +1 y / c = 1 . Por lo tanto, la situacin ideal es aquella en la que la

proporcin de unidades comunes en la muestra en las dos ocasiones es del 100% ( / c = 1 ), lo que significa que la muestra es comn en su totalidad en las dos ocasiones. La situacin tambin es ideal cuando el coeficiente de correlacin entre los valores comunes en ambas ocasiones es mximo ( l12 = +1 ), que en trminos prcticos significa que las unidades muestrales en las dos ocasiones han de estar muy estrechamente relacionadas de forma positiva (lo mejor es que sean iguales las muestras en las dos ocasiones).

Estimacin de la media extendida a dos ocasiones


Uno de los objetivos clsicos en el muestreo en ocasiones sucesivas es estimar el valor promedio de la media sobre las dos ocasiones. Para ello, consideremos el estimador siguiente:

x=

1 ( x + x2 ) 2 1

definido como la media de las medias en ambas ocasiones. Su varianza es:

V ( x) =

1 V ( x1 ) + V ( x 2 ) + 2 cov( x1 , x 2 ) 4

]
S2 , n

y sustituyendo en la frmula los valores obtenidos en la seccin anterior ( V ( x1 ) =

V (x2 ) =

S2 S2 y cov( x1 , x 2 ) = l12/ c ), tenemos: n n

V (x ) =

S2 1 2S 2 2S 2 + l / u [1 + l12/ c ] 12 c = n 4 n 2n

Como este valor es mnimo cuando / c = 0 , vemos que, en el caso l12 < 0 , para estimar la media sobre dos ocasiones es preferible utilizar muestras independientes.

Muestreo bifsico y muestreo en ocasiones sucesivas

341

ESTIMADORES DE MNIMA VARIANZA EN EL MUESTREO EN OCASIONES SUCESIVAS Estimador del cambio entre dos ocasiones
Consideraremos el estimador lineal de mnima varianza del cambio combinado:

$ = W ( x < x ) + (1 < W ) u ( x < x ) 6 2c 1c 2c 1c


$. y determinamos el valor de W que haga efectivamente mnima la varianza de 6

= W 2V ( x < x ) + (1 < W )2 V u ( x < x ) . Tenemos V 6 2c 1c 2c 1c


Obteniendo la primera derivada respecto de W e igualando a cero se tiene:

()

2W u V ( x2c < x1c ) < 2 u (1 < W ) u V ( x2c < x1c ) = 0 W =

V ( x2c < x1c ) V ( x2c < x1c ) + V ( x2c < x1c )

2S 2 2S 2 (1 < l12 ) y V ( x2c < x1c ) = y sustituyendo las varianzas V ( x2c < x1c ) = n<c c 1 (1 < l12 )(1 < / c ) /c c n<c = = 1<W = W= 1 < l12 c + (n < c)(1 < l12 ) 1 < l12 (1 < / c ) 1 1 < l12 (1 < / c ) + n<c c
Sustituyendo estos valores en la expresin de la varianza del estimador lineal de mnima varianza se obtiene:
2 2 = W 2V (x < x ) + (1 < W )2 V u (x < x ) / c 2S (1 < l12 ) = (1 < / c ) u (1 < l12 ) 2S V6 2c 1c 2c 1c [1 < l12 (1 < / c )]2 u n [1 < l12 (1 < / c )]2 u n

()

u [/ + (1 < / ) u (1 < l )] = [1 < l (1 < / )] u n [1 < l (1 < / )] 2S (1 < l ) 2S (1 < l ) = u (1 < l (1 < / )) = [1 < l (1 < / )] u n [1 < l (1 < / )] u n =
2 c c 12 12 c 12 c 2 12 2 2 12 c 12 c 12 c 12

2S 2 (1 < l12 )

2S 2 (1 < l12 )

un

u (1 < l12 + / c l12 )

Hemos obtenido una expresin para la varianza mnima del estimador lineal:

= V 6

()

2 S 2 (1 < l12 ) [1 < l12 (1 < / c )] u n

$ Vemos que, en este caso, el estimador lineal de mnima varianza combinado 6 $ proporciona igual precisin que el estimador simple , cuando / c = 1, es decir, cuando se mantiene la misma muestra para la segunda ocasin.

342 Muestreo estadstico. Conceptos y problemas resueltos

Estimador de la media en la segunda ocasin


Vamos a trabajar en la suposicin de que en la primera ocasin el tamao de la muestra es lo suficientemente grande para poder considerar la estimacin x1 como aproximacin al valor

X 1 en el estimador de regresin x 2' c = x 2 c + b( x1 < x1c ) cuya varianza viene dada por la varianza de sus componentes x 2 c < bx1c y bx1 :

V ( x 2 c < bx1c ) = V ( x 2 c ) + b 2V ( x1c ) < 2 cov( x 2 c ; x1c ) =


2 S2 S S S2 2 S 2 + l12 < 2 l12 u l12 u u = 1 < l12 c c c c c

V (bx1 ) = b 2 u V ( x1 ) = b 2 u

2 S S2 2 S = l12 , (S1 = S 2 b = 1 u l12 = l12 ) n n S2

Sumando ambas componentes se obtiene: V x 2' c = S 2

( )

2 1 < l12 l2 + 12 n c

Utilizaremos el estimador lineal de mnima varianza de la media para la segunda ocasin combinado definido por:

x 2 = Wx 2' c + ( 1 < W ) x 2 c
cuya varianza V x 2 = W 2V x 2' c + ( 1 < W ) V x 2 c es mnima para:
2

( )

( ) V(x ) W= V( x ) +V( x )
2c ' 2c 2c

( )

1< W =

V ( x 2' c ) + V ( x 2 c )

V ( x 2' c )

de donde se deduce que el estimador combinado de varianza mnima para estimar la media en la segunda ocasin toma la forma:

x2 =

V ( x2c )

V( x

1
' 2c

V ( x 2' c )

u x 2' c +

V ( x2c )

V ( x2c ) +

V ( x 2' c )

x 2' c

es una media ponderada con los coeficientes de ponderacin basados en los valores recprocos de las varianzas. Sustituyendo los valores de W y 1 < W en V x 2 , calculamos el valor de la varianza mnima para el estimador de la media en segunda ocasin. Tenemos

( )

V (x2 ) =

(V (x ) + V (x ))
' 2c 2c

V 2 ( x2c )

V x

( )+
' 2c

(V (x )
' 2c

V 2 x 2' c

V ( x 2 c )V x 2' c V (x2c ) = 2 V ( x 2 c )V x 2' c + V ( x2c )

( )

( ) ( )

' 2 y como V x 2 c = S

( )

2 1 < l12 l2 S2 S2 ( ) = = V x + 12 y tenemos: 2c n n<c c c

Muestreo bifsico y muestreo en ocasiones sucesivas


2 2 1 < l12 S2 n + cl12 S 2 u u c 2 2 cn 1 < l12 u n + cl12 S2 V (x2 ) = = u 2 2 cn c 2 2 S2 2 1 < l 12 n + cl 12 1 < l12 u n + cl12 + S u + c c cn

343

S2 u c

2 2 2 (n < c ) = S 2 u n < l12 (n < c ) = S 2 u n < l12 (n < 1) n < l12 2 2 2 2 2 n < l12 c 2 (n < c ) + cn c n < l12 c + cn n < l12 c

Por lo tanto, ya tenemos el valor de la varianza mnima para el estimador lineal de mnima varianza de la media en segunda ocasin:

V (x2 ) = S 2
En particular , c = 0 V (x 2 ) =

2 2 n < l12 c 2 2 2 n < l12 c

2 ) = S2 S 2 u n u (1 < l12 S2 y c = n V (x 2 ) = 2 n ) n n 2 (1 < l12

Luego podemos decir que para estimar el valor actual de X 2 se obtiene la misma precisin manteniendo la muestra que cambindola por completo en cada ocasin.

344 Muestreo estadstico. Conceptos y problemas resueltos

PROBLEMAS RESUELTOS
9.1.
Se trata de estudiar las casas en alquiler en una poblacin. Para ello se extrae una muestra aleatoria simple extensa y barata de tamao 374 de las casas de un distrito y se halla que 272 casas estaban ocupadas por familias de raza blanca y 82 por otras razas. Se extrae una segunda muestra de aproximadamente una de cada cuatro casas y se obtienen los siguientes resultados respecto de la proporcin de casas en alquiler: En alquiler Blancos Otras razas 31 4 Total 74 18

Estimar la proporcin de casas en alquiler en la poblacin y su error de muestreo. Se trata de un problema de muestreo bifsico en el que la muestra de primera fase tiene de tamao n = 374 distribuyndose entre los dos estratos con n1 = 272 y n2 = 82. En segunda fase tenemos los siguientes datos por estratos: Estrato I A Raza blanca Estrato II A Otras razas n1 = 74 n2 = 18 n=92

$ 1 = 272/374 P $ 1 =31/74 W $ 2 = 82/374 P $ 2 = 4/18 W

$= Tenemos entonces P

$ P $ W
h =1 h

272 31 82 4 u + u = 0,376 . 374 74 374 18

Para hallar el error de muestreo calculamos la estimacin de la varianza de la proporcin a partir de la frmula aproximada:
2 W < h + 1 W P <P P = n' Ph Qh W V h n' h h n n'<1 n ' h nh < 1

()

) =
2

31 43 82 272 4 14 2 2 u u 374 74 74 272 82 < 374 + 18 18 < 374 + 374 17 374 374 373 73 374
2 2 1 272 31 82 4 < 0,376 + < 0,376 0,0025 374 374 18 374 74

El error relativo de muestreo ser

0,0025 = 0,133 (13,3%) . 0,375

Muestreo bifsico y muestreo en ocasiones sucesivas

345

9.2.

Se trata de estimar una proporcin a travs de una encuesta para la que se dispone de un presupuesto de 300000 unidades monetarias utilizando muestreo bifsico con estratificacin. La encuesta principal cuesta 1000 unidades monetarias por unidad de muestreo y se dispone de informacin adicional en registros a un coste de 25 unidades monetarias por unidad de muestreo que permite clasificar las unidades en dos estratos de tamaos casi iguales. Sabiendo que la proporcin verdadera es 0,2 en el primer estrato y 0,8 segundo estrato, se quiere estimar los tamaos de las muestras en ambas fases n y n ptimos y el correspondiente valor de la varianza del estimador de la proporcin. Cuantificar la ganancia en precisin respecto del muestreo aleatorio simple. Hallaremos los tamaos ptimos n y n correspondientes a un coste total dado tales que sea mnima, escribiendo la funcin de Lagrange: V P

()

q=

2 1 1 A + B + h ( c' n'+cn < C ) con A = Wh Ph Qh y B = Wh (Ph < P)2 n n' h h

Derivando respecto de n y n y h se tiene:

A A ,q = < 2 + hc = 0 h= 2 ,n n cn B B ,q = < 2 + h c' = 0 h = ,n ' n' c' n' 2 ,q = c ' n '+ cn < C = 0 ,h

n = n ' = V pt .

( (

C A Ac + C B Ac + Bc '

) ) )
2

c'

()

= X

Bc '

Ac + Bc ' C

Tenemos como datos que C = 300000, c = 1000, c = 25, P1 = Q2 = 0,2, Q1 = P2 = 0,8, W1 = W2 = 0,5 y P =

W P
h =1 h

= 0,5(0,2 + 0,8) = 0,5 . Ya podemos calcular:


2

A = Wh Ph Qh = 0,5 0,2 u 0,8 + 0,5 0,8 u 0,2 h


2 h

= 0,16

B = Wh (Ph < P ) = 0,5 u (0,2 < 0,5) 2 + 0,5 u (0,8 < 0,5) 2 = 0,09

y tenemos:

n= n' = V pt .

( (

C A Ac + C B Ac + Bc '

1000 =
2

300000 0,16 0,16 u 1000 + 0,09 u 25 300000 0,09 0,16 u 1000 + 0,09 u 25

) = 268
= 0,0006673

c'

()

= X

Bc '

Ac + Bc ' C

) =(

25

0,16 u 1000 + 0,09 u 25 300000

) = 1272

346 Muestreo estadstico. Conceptos y problemas resueltos

En muestreo aleatorio simple la varianza de la proporcin, considerando reposicin (no olvidemos que para poblaciones grandes en muestreo bifsico pueden aproximarse todas las frmulas por su expresin para reposicin en las dos fases) ser la siguiente:

) = PQ = 0,5(1 < 0,5) = 0,0008333 V (P n 300000 / 1000


Se observa que hay ganancia en precisin al utilizar muestreo bifsico cuantificada por (0,0008333/0,0006673-1) = 0,248, esto es, el 24,8%.

9.3.

Consideremos un proceso de muestreo bifsico con estratificacin. Supongamos que en la primera fase se extrae una muestra de tamao n = 400, y que en la segunda fase se ha tomado, una vez formados tres estratos, n1 = 20, n2 = 10 y n3 = 10. Se conocen los siguientes resultados: 2 W xh S h h 0,55 2,8 15 0,32 8,2 200 0,13 26 1000 Obtener una estimacin del error relativo de muestreo del estimador de la media as como una estimacin de la media por intervalos al 95% de confianza. Se considera que para poblaciones grandes, en muestreo bifsico pueden aproximarse todas las frmulas por su expresin para reposicin en las dos fases. Para estimar la varianza del estimador de la media tenemos:
2 0,55 = n' s h (x < X )2 = 400 15 X 2 < Wh + 1 W V 0,552 < W h h n n'<1 n' 400 n' h h nh 400 < 1 20 200 0,32 1000 0,13 1 2 2 + 0,55(2,8 < 7,54) 2 + 0,32(8,2 < 7,54) 2 0,32 < + 0,13 < + 10 400 10 400 400

()

+ 0,13(26 < 7,54) 2 = 3,96

)]

= W X h xh = 0,55 u 2,8 + 0,32 u 8,2 + 0,13 u 26 = 7,544


h =1

) = v( X El error relativo ser C

) (X V 3,96 = = 0,264 (26,4%) 7,544 X

Un lmite para el error de estimacin al 95% vendr dado por la anchura del intervalo de confianza, que vale 1,96 3,96 = 3,9. Hemos visto en este captulo que para valores grandes de n (caso habitual) el estimador de la varianza del estimador de la media puede aproximarse por la frmula correspondiente al estimador de la varianza del estimador de la media en muestreo estratificado en una sola fase (seguimos suponiendo reposicin) sustituyendo Wh por su estimacin. En nuestro caso tendramos:

2 15 200 1000 = W 2 Sh X = 0,552 + 0,322 + 0,132 V = 4,12 h 20 10 10 nh h

()

Muestreo bifsico y muestreo en ocasiones sucesivas

347

) = v( X El error relativo ser C

) (X V 4,12 = = 0,269 (26,9%) 7,544 X

Observamos que la prdida en precisin es mnima por haber utilizado la aproximacin citada.

9.4.

Consideremos dos caractersticas X e Y medidas sobre los elementos de una poblacin para las que conocemos los datos mx = 2 my = 4 mxy = 10 y X = 10. Se lleva a cabo un muestreo bifsico obteniendo en primera fase una muestra de tamao n = 100 con y ' = 40,6. En la segunda fase n = 25, x = 9,8 e y = 40,1. Se trata de estimar la media poblacional utilizando muestreo bifsico por regresin ptimo calculando el error relativo de muestreo y el coste total para c = 0 y c = 600 Se tiene l =

m xy m xy 6 6 6 6 = = = 0,75 y b = 2 = 2 = 4 16 m xm y 2 u 4 8 my

El estimador por regresin para la media en el muestreo doble se halla mediante:


= x + b( y '< y ) = 9,8 + 6 (40,6 < 40,1) = 9,998 X rg 16

La varianza del estimador ptimo de la media se calcula mediante la expresin:


2 2 2 2 2 2 2 2 = 1 < l m x + l m x = 1 < 0,75 2 + 0,75 u 2 = 0,0955 V X rg n n' 25 100

( )

) (X V 0,0955 rg El error relativo ser Cv( X rg ) = = = 0,0309 (3,09%) 9,998 X rg


El coste total ser C = cn + cn = 600(25)+10(100) = 16000.

9.5.

Se utiliza una muestra aleatoria simple de tamao 60 extrada de una poblacin sin reposicin y probabilidades iguales, para repetir una encuesta sobre sus elementos en dos ocasiones distintas. Se supone que no existe falta de respuesta y que los resultados obtenidos son los que representa la tabla adjunta. Adems, se sabe que m2 = 20, l = 0,7 y / = 0,6.
Primera ocasin Segunda ocasin

x' ' = 150 x' = 152


1) 2) 3) 4)

y' ' = 160 y' = 158

Hallar la estimacin de cambio y < x y su error de muestreo. Hallar la estimacin del cambio de mnima varianza y su error de muestreo. Hallar la estimacin de la media en segunda ocasin y y su error de muestreo. Hallar la estimacin de la media en segunda ocasin de mnima varianza y su error.

348 Muestreo estadstico. Conceptos y problemas resueltos

El nmero c de unidades muestrales comunes en las dos ocasiones se puede calcular a partir de la proporcin de unidades muestrales comunes /c y del tamao muestral total n.

/c =
x=

c c = / c u n = 0,6 u 60 = 36 n

n<c c 60 < 36 36 x ' '+ x ' = 150 + 152 = 0,4 u 150 + 0,6 u 152 = 151,2 n n 60 60 n<c c 60 < 36 36 y= y ' '+ y ' = 160 + 158 = 0,4 u 160 + 0,6 u 158 = 158,8 n n 60 60

Para la estimacin del cambio y su error tenemos entonces:

, = y < x = 158,8 < 151,2 = 7,6


20 S2 V , = 2 [1 < l12/ c ] 2 [1 < 0,7 u 0,6] = 0,38666 60 n
El estimador del cambio de mnima varianza y su error vienen dados por:

()

= W ( y '< x ') + (1 < W ) u ( y ' '< x ' ') con W = 6

1 < l12 (1 < / c )

/c

0,6 = 0,8333 1 < 0,7 u 0,4

= 0,8333(158 < 152 ) + (1 < 0,8333) u (160 < 150 ) = 6,66666 luego ya tenemos 6

= V 6

()

2 S 2 (1 < l12 ) 2 u 20(1 < 0,7 ) = 0,277 [1 < l12 (1 < / c )] u n [1 < 0,7(1 < 0,6)] u 60

El estimador de la media en segunda ocasin y su error se calculan como:

y=

n<c c 60 < 36 36 y ' '+ y ' = 160 + 158 = 0,4 u 160 + 0,6 u 158 = 158,8 n n 60 60

S 2 20 = 0,333 V (y) = 60 n
Utilizaremos el estimador estimador lineal de mnima varianza de la media para la segunda ocasin combinado definido por:

y = W [ y'+ l ( x < x ')] + (1 < W ) y' ' = 0,65[158 + 0,7(151,2 < 152)] + (1 < 0,65)160 = 159
Los clculos necesarios son los siguientes:

W =

V (x2c ) 0,833 = = 0,65 V x + V ( x 2 c ) 0,446 + 0,833

( )
' 2c

2 2 1 < 0,72 0,72 l12 S2 20 ' 2 1 < l12 ( ) V x = = = 0,833 = 20 + = 0 , 446 V x2 = S + 2 c c c n < c 60< 36 60 n 32

( )

Muestreo bifsico y muestreo en ocasiones sucesivas

349

El error de muestreo del estimador de varianza mnima viene dado por:

V (y) =

2 (n < 1) 20 u 60 < 0,7 2 (60 < 1) S 2 u n < l12 = = 0,29 2 2 n 2 < l12 c 60 2 < 0,7 2 (60 < 36) 2

9.6.

Se utiliza una muestra aleatoria simple de tamao 100 de una poblacin de 1000 personas sin reposicin y probabilidades iguales para repetir una encuesta sobre sus elementos en dos ocasiones sucesivas preguntando sobre un carcter dicotmico. Se obtienen los resultados de la tabla adjunta.

O1 A O2
?

S 80 10

No Total 5 5 85 15 100

S No

Total

90 10

Hallar l y calcular el error de muestreo del estimador diferencia de proporciones con contestacin afirmativa entre la segunda y la primera ocasin.
=P <P V (D ) =V (P ) +V (P ) < 2Cov( P ,P ) = (1 < f ) P2 (1 < P2 ) + D 2 1 2 1 1 2 n <1 n 85 85 P X 1i u X 2i < nP ) (1 < 1 2 P (1 < P1 ) 10 100 100 + < 2(1 < f ) i =1 = 1 < (1 < f ) 1 n(n < 1) n <1 100 100 < 1 90 85 90 90 80 < 100 ) (1 < 10 10 100 100 100 = 0,00134 100 + 21 < 1 < n(n < 1) 100 100 < 1 100

Con los datos de la tabla se comprueba fcilmente que

X
i =1

1i

u X 2i = 80 .

El coeficiente de correlacin se calcular de la siguiente forma:

l=

,P ) Cov( P 1 2 = ) V ( P1 ) V ( P 2

0,00032 0,00082 0,00116

= 0,3

350 Muestreo estadstico. Conceptos y problemas resueltos

EJERCICIOS PROPUESTOS
9.1.
Se destinan 3000 unidades monetarias a una encuesta para estimar una proporcin. La encuesta principal costar 10 unidades monetarias por unidad de muestreo. Se dispone de informacin en registros, a un coste de 0,25 unidades monetarias por unidad de muestreo, que permite la clasificacin de las unidades en dos estratos de tamaos casi iguales. Si la proporcin verdadera es 0,2 en el estrato 1 y 0,8 en el estrato 2, estimar n y n ptimas y el valor resultante de V(pst). Produce el muestreo bifsico alguna ganancia en precisin sobre el muestreo aleatorio simple? Si l = 0,8 en muestreo doble para regresin, cmo debe ser n con relacin a n, si la prdida en precisin debida a errores de muestreo en la media de la muestra grande se desea que sea menor del 10%? En una aplicacin de muestreo bifsico por regresin la muestra pequea es de tamao 87 y la grande de tamao 300. Para la muestra pequea conocemos los siguientes datos:

9.2.

9.3.

(X
i

< x ) = 17283
2

(X
i

< x )(Yi < y ) = 5114

(Y
i

< y ) = 3248
2

Calcular el error estndar de la estimacin de la regresin de X .

9.4.

En un muestreo en dos ocasiones se supone que S1=S2=S y que las muestras son grandes de modo que los coeficientes de regresin de X2i respecto de X1i y de X1i respecto de X2i en la parte apareada de las muestras en las dos ocasiones son ambas efectivamente iguales a l. Demostrar que si las estimaciones x1 y x2 se construyen usando la regresin de X1i respecto de X2i se tiene:
v( x 2 < x1 ) = 2S 2 (1 < l ) (n < lu )
v( x2 + x1 ) = 2 S 2 (1 + l ) (n + lu )

CAPTULO MUESTREO ESTADSTICO MEDIANTE SPSS

OBJETIVOS
1. Presentar mtodos automatizados de tratamiento del muestreo estadstico. 2. Analizar las posibilidades en muestreo del software SPSS a partir de la versin 12. 3. Utilizar el asistente de muestreo de SPSS para la creacin de planes de muestreo en diseos complejos. 4. Utilizar el asistente de muestreo de SPSS para la modificacin y ejecucin de planes de muestreo en diseos complejos. 5. Estudiar las posibilidades del asistente de preparacin de anlisis de SPSS para la creacin de un plan de anlisis en una muestra compleja. 6. Estudiar las posibilidades del asistente de preparacin de anlisis de SPSS para la modificacin de un plan de anlisis en una muestra compleja. 7. Realizar clculos en muestra complejas con SPSS. 8. Obtener frecuencias, descriptivos, tablas de contingencia, razones y otros estimadores y sus errores en muestras complejas con SPSS.

352 Muestreo estadstico. Conceptos y problemas resueltos

NDICE
1. SPSS y el muestreo estadstico. 2. Diseos complejos y el asistente de muestreo. Creacin de un nuevo plan de muestreo. 3. Asistente de muestreo: Modificar un plan existente. 4. Asistente de muestreo: ejecutar un plan de muestreo dado. 5. Preparacin de una muestra compleja para su anlisis: Creacin de un nuevo plan de anlisis. 6. Preparacin de una muestra compleja para su anlisis: Modificar un plan de anlisis existente. 7. Clculos en muestras complejas: frecuencias, descriptivos, tablas de contingencia y razones.

Muestreo estadstico mediante SPSS

353

SPSS Y EL MUESTREO ESTADSTICO


Un supuesto inherente a los procedimientos de anlisis en los paquetes de software tradicionales es que las observaciones del archivo de datos de trabajo representan una muestra aleatoria simple de la poblacin de inters. Este supuesto es insostenible para un nmero cada vez mayor de empresas e investigadores que consideran ms econmico y cmodo obtener las muestras de una forma ms estructurada. La opcin Muestras complejas de SPSS (opcin presente en el programa a partir de la versin 12) permite seleccionar una muestra de acuerdo con un diseo complejo e incorporar las especificaciones del diseo al anlisis de los datos para asegurar la validez de los resultados. En SPSS, una muestra compleja puede ser distinta de una muestra aleatoria simple en muchos aspectos. En una muestra aleatoria simple, las unidades de muestreo individuales se seleccionan aleatoriamente con la misma probabilidad y sin reposicin (SR) directamente a partir de la totalidad de la poblacin. Por el contrario, una muestra compleja determinada puede tener en SPSS alguna o todas las caractersticas siguientes: Estratificacin: El muestreo estratificado implica seleccionar muestras independientemente dentro de los subgrupos de la poblacin que no se solapen o estratos. Por ejemplo, los estratos pueden ser grupos socioeconmicos, categoras laborales, grupos de edad o grupos tnicos. Con la estratificacin, puede asegurar que los tamaos muestrales de los subgrupos de inters son adecuados, mejorar la precisin de las estimaciones globales y utilizar distintos mtodos de muestreo entre los diferentes estratos. Conglomerados: El muestreo por conglomerados implica la seleccin de grupos de unidades muestrales o conglomerados. Por ejemplo, los conglomerados pueden ser escuelas, hospitales o zonas geogrficas y las unidades muestrales pueden ser alumnos, pacientes o ciudadanos. El conglomerado es comn en los diseos polietpicos y en las muestras de zona (geogrfica). Mltiples etapas: En el muestreo polietpico, se selecciona una muestra de primera etapa basada en conglomerados. A continuacin, se crea una muestra de segunda etapa extrayendo submuestras a partir de los conglomerados seleccionados. Si la muestra de segunda etapa est basada en subconglomerados, entonces puede aadir una tercera etapa a la muestra. Por ejemplo, en la primera etapa de una encuesta, se podra extraer una muestra de ciudades. A continuacin, y a partir de las ciudades seleccionadas, se podran muestrear unidades familiares. Finalmente, a partir de las unidades familiares seleccionadas, se podra encuestar a individuos. Los Asistentes de muestreo y preparacin del anlisis permiten especificar tres etapas en un diseo. Muestreo no aleatorio: Cuando es difcil obtener la muestra aleatoriamente, las unidades se pueden muestrear sistemticamente (con un intervalo fijo) o secuencialmente. Probabilidades de seleccin desiguales: Cuando se muestrean conglomerados que contienen nmeros de unidades desiguales, puede utilizar el muestreo probabilstico proporcional al tamao (PPS) para que la probabilidad de seleccin del conglomerado sea igual a la proporcin de unidades que contiene. El muestreo PPS tambin puede utilizar esquemas de ponderacin ms generales para seleccionar unidades. Muestreo no restringido: El muestreo no restringido selecciona las unidades con reposicin (CR), por lo que se puede seleccionar ms de una vez una unidad individual para la muestra.

354 Muestreo estadstico. Conceptos y problemas resueltos

Ponderaciones muestrales: Las ponderaciones muestrales se calculan automti-camente al extraer una muestra compleja y de forma ideal se corresponden con la <<frecuencia>> que cada unidad muestral representa en la poblacin objetivo. Por lo tanto, la suma de las ponderaciones muestrales debe estimar el tamao de la poblacin. Los procedimientos de anlisis de muestras complejas requieren las ponderaciones muestrales para poder analizar correctamente una muestra compleja.

DISEOS COMPLEJOS Y EL ASISTENTE DE MUESTREO. CREACIN DE UN NUEVO PLAN DE MUESTREO


El Asistente de muestreo le gua a travs de los pasos para crear, modificar o ejecutar un archivo de plan de muestreo. Antes de utilizar el Asistente, debe tener en mente una poblacin objetivo bien definida, una lista de las unidades muestrales y un diseo muestral adecuado. Para crear un nuevo plan de muestreo (por ejemplo, muestreo estratificado del 10% por barrios en el fichero Venta de casas [por barrios].sav), elija en los mens AnalizarA Muestras complejas A Seleccionar una muestra...(Figura 10-1). En el Asistente de muestreo seleccione Disear una muestra y elija un nombre de archivo de plan (PLAN1.CSPLAN) para guardar el plan de muestreo (Figura 10-2). Pulse Siguiente para ir al paso Variables en el diseo (Figura 10-3), donde puede definir estratos, conglomerados e introducir ponderaciones muestrales.

Figura 10-1

Figura 10-2

Muestreo estadstico mediante SPSS

355

Figura 10-3 Este paso permite seleccionar las variables de estratificacin y conglomeracin en el campo Variables arrastrndolas a los campos Estratificar por y Conglomerados respectivamente, y definir ponderaciones muestrales de entrada en el campo Introducir ponderacin muestral (si el diseo muestral actual forma parte de un diseo muestral mayor, puede disponer de ponderaciones muestrales de una etapa anterior del diseo mayor, en cuyo caso puede especificar una variable numrica que contenga estas ponderaciones en la primera etapa del diseo actual calculndose las ponderaciones muestrales automticamente para las etapas posteriores del diseo actual). Tambin puede especificar una etiqueta para la etapa en el campo Etiqueta de etapa (se utiliza en los resultados para facilitar la identificacin de la informacin por etapas). En la parte izquierda de cada paso del Asistente de muestreo se muestra un esquema de los titulares de todos los pasos. Puede navegar por el Asistente al pulsar el nombre de uno de los pasos activados en el esquema. Los pasos estn activados cuando todos los pasos anteriores sean vlidos, es decir, si cada uno de los pasos anteriores dispone de las especificaciones mnimas necesarias para ese paso. Consulte la ayuda de los pasos individuales para obtener ms informacin sobre los motivos por los que un paso determinado puede no ser vlido. A continuacin, para ir al paso Mtodo, pulsamos en Mtodo en la parte izquierda de la pantalla del Asistente para obtener la Figura 10-4, en cuyo campo Mtodo elegimos el tipo de muestreo (aleatorio, sistemtico, con o sin reposicin, etc.). Algunos tipos de muestreo permiten elegir entre realizar un muestreo con reposicin (CR) o sin reposicin (SR). Si desea obtener ms informacin, consulte las descripciones de los tipos. Tenga en cuenta que algunos tipos de probabilidad proporcional al tamao (PPS) estn disponibles slo cuando se han definido conglomerados y todos los tipos de PPS estn disponibles slo en la primera etapa de un diseo. Adems, los mtodos SR estn disponibles slo en la ltima etapa de un diseo.

356 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-4 En el Muestreo aleatorio simple las unidades se seleccionan con probabilidad igual. Se pueden seleccionar con o sin reposicin. En el Muestreo sistemtico simple las unidades se seleccionan con un intervalo fijo en todo el marco muestral (o en los estratos, si se han especificado) y se extraen sin reposicin. Se selecciona una unidad aleatoriamente dentro del primer intervalo como el punto inicial. En el Muestreo secuencial simple las unidades se seleccionan de forma secuencial con probabilidad igual y sin reposicin. El Muestreo con probabilidad proporcional al tamao es un mtodo de primera etapa que selecciona unidades de forma aleatoria con probabilidad proporcional al tamao. Se puede seleccionar cualquier unidad con reposicin; slo se puede realizar muestreo sin reposicin de los conglomerados. El Muestreo sistemtico proporcional al tamao es un mtodo de primera etapa que selecciona unidades de forma sistemtica con probabilidad proporcional al tamao. Se seleccionan sin reposicin. El Muestreo secuencial proporcional al tamao es un mtodo de primera etapa que selecciona unidades de forma secuencial con probabilidad proporcional al tamao del conglomerado y sin reposicin. El Muestreo de Brewer proporcional al tamao es un mtodo de primera etapa que selecciona dos conglomerados de cada estrato con probabilidad proporcional al tamao del conglomerado y sin reposicin. Se debe especificar una variable de conglomeracin para utilizar este mtodo. El Muestreo de Murthy proporcional al tamao es un mtodo de primera etapa que selecciona dos conglomerados de cada estrato con probabilidad proporcional al tamao del conglomerado y sin reposicin. Se debe especificar una variable de conglomeracin para utilizar este mtodo. El Muestreo de Sampford proporcional al tamao es un mtodo de primera etapa que selecciona ms de dos conglomerados de cada estrato con probabilidad proporcional al tamao del conglomerado y sin reposicin. Es una extensin del mtodo de Brewer. Se debe especificar una variable de conglomeracin para utilizar este mtodo. Por defecto, el mtodo de estimacin se especifica en el archivo de plan de manera coherente con el mtodo de muestreo seleccionado, pero la opcin Usar estimacin CR para el anlisis permite utilizar la estimacin con reposicin incluso si el mtodo de muestreo implica la estimacin SR. Esta opcin solamente est disponible en la etapa 1. Si se selecciona un mtodo PPS, se deber especificar una medida del tamao que defina el tamao de cada unidad en el campo Medida del tamao (MDT).

Muestreo estadstico mediante SPSS

357

Estos tamaos pueden definirse explcitamente en una variable o se pueden calcular a partir de los datos. Opcionalmente, se pueden establecer los lmites inferior y superior de la MDT, anulando cualquier valor encontrado en la variable MDT o calculado a partir de los datos. Estas opciones solamente estn disponibles en la etapa 1. A continuacin, para ir al paso Tamao muestral, pulsamos en Tamao muestral en la parte izquierda de la pantalla del Asistente para obtener la Figura 10-5 .

Figura 10-5 Este paso permite especificar el nmero o la proporcin de unidades que se van a muestrear dentro de la etapa actual. El tamao muestral puede ser fijo o variar entre estratos. Para el propsito de especificar el tamao muestral, se pueden utilizar los conglomerados elegidos en etapas anteriores para definir estratos. En el campo Unidades puede especificar un tamao muestral exacto o una proporcin de unidades a muestrear. En el campo Valor se aplica un valor particular a todos los estratos. Si se selecciona Recuentos como la unidad mtrica, se deber introducir un entero positivo. Si se selecciona Proporciones, se deber introducir un valor no negativo (a no ser que se realice una muestra con reposicin, los valores de proporcin no debern ser mayores que 1). El campo Valores desiguales para estratos permite introducir distintos valores de tamao para cada estrato a travs del cuadro de dilogo Definir tamaos desiguales. El campo Leer valores de la variable permite seleccionar una variable numrica que contenga los valores de tamao para los estratos. Si se selecciona Proporciones, se tiene la opcin de establecer los lmites inferior y superior para el nmero de unidades muestreadas. A continuacin, para ir al paso Variables de resultado, pulsamos en Variables de resultado en la parte izquierda de la pantalla del Asistente. Se obtiene la Figura 10-6.

358 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-6 Este paso permite elegir las variables que desea guardar cuando se extraiga la muestra. Tamao poblacional recoge el nmero estimado de unidades en la poblacin de una etapa dada. El nombre raz de la variable guardada es TamaoPoblacin_. Proporcin muestral recoge la tasa de la muestra en una etapa dada. El nombre raz de la variable guardada es TasaMuestreo_. Tamao muestral recoge el nmero de unidades extradas en una etapa dada. El nombre raz de la variable guardada es TamaoMuestra_. Ponderacin muestral recoge la inversa de las probabilidades de inclusin. El nombre raz de la variable guardada es PonderacinMuestra_. Algunas variables por etapa se generan automticamente. Entre stas se incluyen Probabilidades de inclusin (proporcin de unidades extradas en una etapa dada con nombre raz de la variable guardada ProbabilidadInclusin_), Ponderacin acumulada (ponderacin de la muestra acumulada a lo largo de las etapas anteriores a la actual e incluyendo esta ltima con nombre raz de la variable guardada), PonderacinMuestraAcumulada_, ndice (identifica las unidades seleccionadas varias veces dentro de una etapa dada con nombre raz de la variable guardada ndice_), etc.. Los nombres raz de la variable guardada incluyen un sufijo entero que refleja el nmero de la etapa, por ejemplo, TamaoPoblacin_1_ para el tamao de la poblacin guardada de la etapa 1. A continuacin, para ir al paso Resumen, pulsamos en Resumen en la parte izquierda de la pantalla del Asistente. Se obtiene la Figura 10-7. Se trata del ltimo paso de cada etapa que proporciona un resumen de las especificaciones del diseo muestral hasta la etapa actual. A partir de aqu, puede pasar a la siguiente etapa (crendola si es necesario en Aadir etapa 2) o definir las opciones para extraer la muestra.

Muestreo estadstico mediante SPSS

359

Figura 10-7 Ya estamos en condiciones de extraer la muestra segn el diseo definido en los pasos anteriores. Para ello elegimos Extraer muestra A Opciones de seleccin en la parte izquierda de la pantalla del Asistente de muestreo. Tambin puede controlar otras opciones del muestreo, como la semilla aleatoria y el tratamiento de los valores perdidos (Figura 10-8). Extraer muestra, adems de elegir si desea extraer una muestra, tambin puede elegir ejecutar parte del diseo muestral. Las etapas se deben extraer en orden; es decir, la etapa 2 no se puede extraer a menos que ya se haya extrado la etapa 1. Al editar o ejecutar un plan, no puede volver a muestrear etapas bloqueadas. El campo Semilla permite elegir un valor de semilla para la generacin de nmeros aleatorios. El campo Incluye los valores perdidos definidos por el usuario determina si los valores perdidos definidos por el usuario son tratados como vlidos. Si es as, los valores perdidos definidos por el usuario se tratan como una categora diferente. El campo Los datos ya estn ordenados permite acelerar el proceso de seleccin si el marco muestral est clasificado previamente por los valores de las variables de estratificacin.

Figura 10-8

360 Muestreo estadstico. Conceptos y problemas resueltos

Realizado el diseo y extrada la muestra, slo resta guardar los resultados adecuadamente. Para ello se selecciona Extraer muestra A Archivos de resultados en la parte izquierda de la pantalla del Asistente de muestreo (Figura 10-9). Este paso permite elegir dnde dirigir los casos muestreados, las variables de ponderacin, las probabilidades conjuntas y las reglas de seleccin de casos. Las opciones de Dnde desea almacenar los datos de la muestra? permiten determinar dnde se escribe el resultado de la muestra. Se puede aadir al archivo de datos de trabajo o guardar en un archivo externo. Si se especifica un archivo externo, se guardan en el archivo las variables de los resultados del muestreo y las variables del archivo de datos de trabajo para los casos seleccionados. Las opciones de Dnde desea guardar las probabilidades conjuntas? permiten determinar dnde se escriben las probabilidades conjuntas. Las probabilidades conjuntas se producen si se seleccionan la probabilidad proporcional al tamao sin reposicin, el muestreo de Brewer proporcional al tamao, el muestreo de Sampford proporcional al tamao o el mtodo de Murthy proporcional al tamao y la estimacin con reposicin no se especifica. En cuanto al campo Guardar reglas de seleccin de casos, si est construyendo la muestra por etapas, es posible que quiera guardar las reglas de seleccin de casos en un archivo de texto. Son tiles para construir el submarco de las etapas posteriores.

Figura 10-9 Ya slo resta finalizar el proceso adecuadamente. Para ello se selecciona Extraer muestra A Finalizacin en la parte izquierda de la pantalla del Asistente de muestreo (Figura 10-10). Puede guardar el archivo de plan y extraer la muestra ahora o pegar las selecciones en una ventana de sintaxis. Al editar un plan, puede guardar el plan editado en un archivo nuevo o sobrescribir el archivo de plan existente.

Muestreo estadstico mediante SPSS

361

Figura 10-10 Al pulsar en Finalizar en la Figura 10-10 se obtiene la salida del procedimiento con la sintaxis (Figura 10-11) y un resumen para las etapas (Figura 10-12).

Figura 10-11

Figura 10-12

Tambin se obtiene un resumen sobre las distintas etapas de seleccin de la muestra, que se presenta a continuacin.
Resumen

Etapa 1 Variables Informacin de la muestra Estratificacin Mtodo de seleccin 1 Barrio Muestreo aleatorio simple sin reposicin ,1 ProbabilidadInclusin_1_ PonderacinMuestralAcumulada_1 _ TamaoPoblacin_1_ TamaoMuestral_1_ TasaMuestreo_1_ PonderacinMuestral1_ Muestreo de probabilidad igual sin reposicin A partir de la variable ProbabilidadInclusin_1_

Informacin sobre el anlisis

Proporcin de unidades muestreadas Variables creadas Probabilidad de inclusin o modificadas (seleccin) segn etapa Ponderacin de muestreo acumulada segn etapa Tamao de la poblacin segn etapa Tamao de la muestra segn etapa Tasa de muestreo segn etapa Ponderacin de muestreo segn etapa Supuestos del estimador Probabilidad de inclusin

Archivo del plan: C:\Archivos de programa\SPSS12\PLAN1Variable de ponderacin: PonderacinMuestral_Final_

362 Muestreo estadstico. Conceptos y problemas resueltos

ASISTENTE DE MUESTREO: MODIFICAR UN PLAN EXISTENTE


Para modificar un plan de muestreo existente, por ejemplo para guardar la muestra estratificada anterior en una archivo nuevo de nombre PLAN2.SAV, elija en los mens: Analizar A Muestras complejas A Seleccionar una muestra..., seleccione Editar un diseo muestral y elija el archivo de plan anterior PLAN1.CSPLAN para editar (Figura 10-13). Pulse Siguiente para continuar usando el Asistente. Revise el plan de muestreo del paso Resumen del plan (Figura 10-14), y a continuacin pulse Siguiente. En Extraer muestra A Archivos de resultados especifique el archivo para guardar la muestra (Figura 10-15). Vaya al paso final y especifique un nombre nuevo para el archivo de plan editado (Figura 10-16). Si lo desea, tiene la posibilidad de Especificar las etapas que ya se han muestreado y Eliminar etapas del plan.

Figura 10-13

Figura 10-14

Muestreo estadstico mediante SPSS

363

Figura 10-15 Puede ocurrir que al pulsar Finalizar en la Figura 10-16, algunas variables a guardar coincidan en nombre con las ya existentes. En ese caso, en la pantalla de la Figura 10-17 se hace clic en Cambiar nombre y SPSS realiza los cambios adecuados. La Figura 10-18 muestra el nuevo archivo PLAN2.SAV que contiene la muestra aleatoria.

Figura 10-16

364 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-17

Figura 10-18

ASISTENTE DE MUESTREO: EJECUTAR UN PLAN DE MUESTREO DADO


Elija en los mens Analizar A Muestras complejas A Seleccionar una muestra...(Figura 10-1). En el Asistente de muestreo seleccione Extraer una muestra (Figura 10-13) y elija un archivo de plan para ejecutar. Pulse Siguiente para continuar usando el Asistente. Revise el plan de muestreo del paso Resumen del plan, y a continuacin pulse Siguiente. Cuando se ejecuta un plan de muestreo se omiten los pasos individuales que contienen informacin de la etapa. Ya puede pasar al paso de finalizacin. Si lo desea, tiene la posibilidad de especificar las etapas que ya se han muestreado.

PREPARACIN DE UNA MUESTRA COMPLEJA PARA SU ANLISIS: CREACIN DE UN NUEVO PLAN DE ANLISIS
El Asistente de preparacin del anlisis le gua a travs de los pasos para crear o modificar un plan de anlisis y utilizarlo con los distintos procedimientos de anlisis de muestras complejas. Antes de utilizar el Asistente, debe haber extrado la muestra para el anlisis de acuerdo con un diseo complejo. Es ms til crear un plan nuevo cuando no se tiene acceso al archivo del plan de muestreo utilizado para extraer la muestra (recuerde que el plan de muestreo contiene un plan de anlisis por defecto). Si no tiene acceso al archivo del plan de muestreo utilizado para extraer la muestra, puede utilizar el plan de anlisis contenido por defecto en el archivo del plan de muestreo u omitir las especificaciones del anlisis por defecto y guardar los cambios en un archivo nuevo. Para crear un nuevo plan de anlisis, elija en los mens Analizar muestras complejas A Preparar para el anlisis... (Figura 10-19), seleccione Crear un archivo de plan en la Figura 10-20 y elija un nombre de archivo de plan para guardar el plan del anlisis. Crearemos un plan de anlisis de nombre PLANA.CSAPLAN para la muestra obtenida anteriormente y guardada en el fichero PLAN2.SAV. Pulse Siguiente para continuar usando el Asistente. Especifique la variable que contiene las ponderaciones muestrales en el paso Variables del diseo y, si lo desea, puede definir estratos y conglomerados (Figura 10-21). Es posible seleccionar el mtodo de estimacin de los errores tpicos en el paso Mtodo de estimacin (Figura 10-22). Tambin puede especificar el nmero de unidades muestrales o la probabilidad de inclusin por unidad en el paso Tamao (Figuras 10-23 y 10-24).

Muestreo estadstico mediante SPSS

365

El paso Resumen (Figura 10-25) recoge las especificaciones de nuestro anlisis. Tambin es posible aadir una segunda o tercera etapa al diseo en el paso Aadir etapa. El paso Finalizacin permite guardar el archivo del plan ahora o pegar las selecciones en una ventana de sintaxis (Figura 10-26). Ahora puede pulsar Finalizar para guardar el plan. Se obtiene la salida del procedimiento (Figura 10-27).

Figura 10-19

Figura 10-20

Figura 10-21

366 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-22

Figura 10-23

Figura 10-24

Muestreo estadstico mediante SPSS

367

Figura 10-25

Figura 10-26

Figura 10-27

Figura 10-28

368 Muestreo estadstico. Conceptos y problemas resueltos

PREPARACIN DE UNA MUESTRA COMPLEJA PARA SU ANLISIS: MODIFICAR UN PLAN DE ANLISIS EXISTENTE
Para modificar un plan de anlisis existente elija en los mens Analizar A Muestras complejas A Preparar para el anlisis... (Figura 10-19), seleccione Editar un archivo de plan y elija un nombre de archivo de plan en el que se guardar el plan del anlisis (Figura 10-28). Pulse Siguiente para continuar usando el Asistente. Revise el plan de anlisis en el paso Resumen del plan y, a continuacin, pulse Siguiente. Los pasos posteriores son prcticamente iguales que los de un diseo nuevo. Desplcese al paso de finalizacin y especifique un nombre nuevo para el archivo de plan editado o sobrescriba el archivo de plan existente. Si lo desea, tiene la posibilidad de eliminar etapas del plan.

CLCULOS EN MUESTRAS COMPLEJAS: FRECUENCIAS, DESCRIPTIVOS, TABLAS DE CONTINGENCIA Y RAZONES


Una vez seleccionada una muestra mediante el Asistente de muestreo que se activa con AnalizarA Muestras complejas A Seleccionar una muestra... (Figura 10-1), y preparada la muestra para su anlisis mediante el Asistente de preparacin del anlisis que se activa con AnalizarA Muestras complejas A Preparar para el anlisis... (Figura 10-19), ya estamos en disposicin de calcular frecuencias, estadsticos, tablas de contingencia y razones a partir de los datos de nuestra muestra.

Frecuencias de Muestras complejas


El procedimiento Frecuencias de Muestras complejas genera tablas de frecuencias para las variables seleccionadas en un archivo de plan de anlisis existente (*.CSAPLAN) y muestra estadsticos univariantes. Si lo desea, puede solicitar estadsticos por subgrupos definidos por una o ms variables categricas. El procedimiento genera estimaciones de los tamaos poblacionales de las casillas, adems de errores tpicos, intervalos de confianza, coeficientes de variacin, efectos del diseo, raz cuadrada de los efectos del diseo, valores acumulados y recuentos no ponderados para cada estimacin. Adems, se calculan los estadsticos de chi-cuadrado y la razn de verosimilitudes para el contraste de proporciones de casilla iguales. Para la obtencin de Descriptivos de Muestras complejas elija en los mens Analizar A Muestras complejas A Descriptivos... (Figura 10-29), seleccione un archivo de plan, que puede ser el asociado por defecto a la muestra en memoria PLAN2.SAV u otro a especificar en Archivo personalizado (Figura 10-30) y, si lo desea, seleccione un archivo de probabilidades conjuntas personalizado. Pulse en Continuar y seleccione al menos una variable de medida y, si lo desea, tiene la posibilidad de especificar variables para definir subpoblaciones (Figura 10-31), en cuyo caso los estadsticos se calculan por separado para cada subpoblacin. Al pulsar Aceptar se obtiene la salida (Figuras 10-32 y 10-33).

Muestreo estadstico mediante SPSS

369

Figura 10-29

Figura 10-30

Figura 10-31

Figura 10-32

Figura 10-33

Figura 10-34

Descriptivos de Muestras complejas


El procedimiento Descriptivos de Muestras complejas genera estadsticos descriptivos para las variables seleccionadas en un archivo de plan de anlisis existente (*.CSAPLAN). Si lo desea, puede solicitar estadsticos por subgrupos definidos por una o ms variables categricas.

370 Muestreo estadstico. Conceptos y problemas resueltos

El procedimiento genera estimaciones de los tamaos poblacionales de las casillas, adems de errores tpicos, intervalos de confianza, coeficientes de variacin, efectos del diseo, raz cuadrada de los efectos del diseo, valores acumulados y recuentos no ponderados para cada estimacin. Adems, se calculan los estadsticos de chi-cuadrado y la razn de verosimilitudes para el contraste de proporciones de casilla iguales. Para la obtencin de Descriptivos de Muestras complejas elija en los mens Analizar A Muestras complejas A Descriptivos... (Figura 10-34), seleccione un archivo de plan, que puede ser el asociado por defecto a la muestra actual (PLANA.CSAPLAN) u otro a especificar en Archivo personalizado (Figura 10-35) y, si lo desea, seleccione un archivo de probabilidades conjuntas personalizado. Pulse en Continuar y seleccione al menos una variable de medida (Figura 10-36). Si lo desea, tiene la posibilidad de especificar variables para definir subpoblaciones, en cuyo caso los estadsticos se calculan por separado para cada subpoblacin. El botn Estadsticos permite elegir los estadsticos a obtener (Figura 10-37). Al pulsar Aceptar se obtiene la salida (figuras 10-38 a 10-40).

Figura 10-35

Figura 10-36

Figura 10-37

Figura 10-38

Figura 10-39

Muestreo estadstico mediante SPSS

371

Figura 10-40

372 Muestreo estadstico. Conceptos y problemas resueltos

Tablas de contingencia de Muestras complejas


El procedimiento Tablas de contingencia de Muestras complejas genera tablas de contingencia para los pares de variables seleccionadas y muestra estadsticos sobre la clasificacin bivariante. Si lo desea, puede solicitar estadsticos por subgrupos, definidos por una o ms variables categricas. Para la obtencin de Tablas de contingencia de Muestras complejas elija en los mens Analizar A Muestras complejas A Tablas de contingencia... (Figura 10-41), seleccione un archivo de plan, que puede ser el asociado por defecto a la muestra actual (PLANA.CSAPLAN) u otro a especificar en Archivo personalizado (Figura 10-42) y, si lo desea, seleccione un archivo de probabilidades conjuntas personalizado. Pulse en Continuar y seleccione al menos una variable de medida para el campo Filas y otra para el campo Columnas que formarn la tabla de contingencia (Figura 10-43). Si lo desea, tiene la posibilidad de especificar variables para definir subpoblaciones, en cuyo caso las tablas se calculan por separado para cada subpoblacin. El botn Estadsticos permite elegir los estadsticos a obtener (Figura 10-44). Al pulsar Aceptar se obtiene la salida.

Figura 10-41

Figura 10-42

Figura 10-43

Figura 10-44

Muestreo estadstico mediante SPSS

373

Razones de Muestras complejas


El procedimiento Razones de Muestras complejas muestra estadsticos de resumen univariantes para razones de variables. Si lo desea, puede solicitar estadsticos por subgrupos, definidos por una o ms variables categricas. Para la obtencin de Razones de Muestras complejas elija en los mens Analizar A Muestras complejas A Razones... (Figura 10-45), seleccione un archivo de plan, que puede ser el asociado por defecto a la muestra actual (PLANA.CSAPLAN) u otro a especificar en Archivo personalizado (Figura 10-46) y, si lo desea, seleccione un archivo de probabilidades conjuntas personalizado. Pulse en Continuar y seleccione al menos una variable de medida para el campo Numerador y otra para el campo Denominador que formarn la razn a estimar (Figura 10-47). Los numeradores y los denominadores deben ser variables de escala con valores positivos. Si lo desea, tiene la posibilidad de especificar variables para definir subpoblaciones, en cuyo caso, las razones se calculan por separado para cada subpoblacin. El botn Estadsticos permite elegir los estadsticos a obtener (Figura 10-48). Al pulsar Aceptar se obtiene la salida (Figuras 10-49 y 10-50).

Figura 10-45

Figura 10-46

Figura 10-47

Figura 10-48

374 Muestreo estadstico. Conceptos y problemas resueltos

Figura 10-49

Figura 10-50

You might also like