TeoriaElementalMuestreo R

Cursoseminariosobrediseoyanlisisde encuestas: ParteI Estrategiasdemuestreoparaelementos
LaVisin
Lesdimosunmapadellugar adondeiban JohnMaxwell
Objetivo:
Conocer las bondades y desventajas de las principales estrategias de muestreo cuando se tienen marcos de muestreo de elementos utilizando programacin en R.
Contenido:
Esta presentacin est enfocada en el desarrollo prctico de una encuesta en la poblacin LUCY con el marco muestral MARCO: 1. 2. 3. 4. 5. 6.
Bibliografia: Estrategiasdemuestreo.Gutirrez(2009).USTA. ModelAssistedSurveySampling.Sarndal (1992).Springer.
R y TeachingSampling Marco y Lucy Estrategias para muestreo Bernoulli Estrategias para muestreo M.A.S. Estrategias para muestreo M.A.S.R. Estrategias para muestreo Sistemtico
MarcoyLucy
Si usted es usuario de paquetes como SAS, SPSS, Stata, o Systat por qu usar R? 1. Es gratis. Si usted es un profesor o un estudiante, los beneficios son obvios. Si trabaja en una empresa, su jefe lo valorar ms cuando se entere que ya no debe pagar la licencia anual para realizar sus anlisis estadsticos. 2. Es ejecutable en una variedad de plataformas incluyendo Windows, Unix y MacOS. 3. Provee una plataforma para la programacin de nuevos mtodos estadsticos de un amanera sencilla. 4. Contiene rutinas estadsticas avanzadas que an no estn disponibles en otros paquetes. 5. Genera potentes grficos actualizados con el estado del arte. 6. Las rutinas creadas en R ya pueden ser cargadas y ejecutadas en otros importantes softwares como SAS y SPSS
6
TeachingSampling: Sampling designs and parameter estimation in finite population Foundations of inference in survey sampling Version: 1.4.9 Depends: R ( 2.6.0) Published: 2010-03-11 Author: Hugo Andres Gutierrez Rojas Maintainer: Hugo Andres Gutierrez Rojas <hugogutierrez at usantotomas.edu.co> License: GPL ( 2) URL: http://www.predictive.wordpress.com/stats/
En R: Men Paquetes Instalar paquete escoger el servidor de preferencia buscar y hacer clic en TeachingSampling. Cargar el paquete con la siguiente instruccin:
> library(TeachingSampling)
7
Lucy se refiere a una poblacin de empresas del sector industrial. Marco se refiere al marco de muestreo que se requiere para disear una encuesta probabilstica que permita inferir acerca de Lucy. La poblacin objetivo la conforman todas las empresas cuya actividad principal est ligada al sector industrial. El proceso de medicin se har con base en: ingresos en el ltimo ao fiscal, impuestos declarados en el ltimo ao fiscal y nmero de empleados. Adicionalmente, se requiere conocer si la empresa enva peridicamente algn tipo de material publicitario por correo electrnico. Para obtener las respuestas, un entrevistador visitar las instalaciones fsicas de la empresa y realizar las siguientes preguntas: 1. En el ltimo ao fiscal, a cunto ascendieron los ingresos en esta empresa? 2. En el ltimo ao fiscal, a cunto ascendieron los impuestos declarados por esta empresa? 3. Actualmente, cuntos empleados laboran para esta empresa? 4. Esta empresa acostumbra a enviar peridicamente material publicitario por correo electrnico a sus clientes o potenciales clientes?
8
Para abordar la seleccin de una muestra que permita la inferencia acerca del crecimiento econmico del sector, se dispone de un marco de muestreo con las siguientes caractersticas para cada empresa que conforma la poblacin. 1. Identificador: es una secuencia alfanumrica de dos letras y tres dgitos. Este nmero de identificacin se le otorga a cada empresa en el momento de la constitucin legal ante la entidad de registro pertinente. 2. Ubicacin: es la direccin que se encuentra registrada en la declaracin de impuestos. 3. Zona: la ciudad est conformada por barrios o zonas geogrficas. Dependiendo de la direccin, la empresa pertenece a una y slo una zona geogrfica de la ciudad. 4. Nivel: segn los registros tributarios, las empresas se catalogan en tres grupos: 1. Grandes: empresas que tributan 49 millones de dlares al ao o ms. 2. Medianas: empresas que tributan ms de 11 millones y menos de 49 millones de dlares al ao. 3. Pequeas: empresas que tributan 11 millones de dlares al ao o menos.
9
La informacin concerniente a las primeras 10 empresas del marco de muestreo se visualiza con el siguiente cdigo computacional en R:
> data(Marco) > Marco[1:10,] ID Ubication 1 AB001 c1k1 2 AB002 c1k2 3 AB003 c1k3 4 AB004 c1k4 5 AB005 c1k5 6 AB006 c1k6 7 AB007 c1k7 8 AB008 c1k8 9 AB009 c1k9 10 AB010 c1k10
Level Zone Small A Small A Small A Small A Small A Small A Small A Small A Small A Small A
> names(Marco) [1] "ID "Ubication "Level "Zone > dim(Marco) [1] 2396 4
10
La informacin de todas las caractersticas de inters concerniente a las primeras 10 empresas de la poblacin de empresas del sector industrial se visualiza con el siguiente cdigo computacional en R:
> data(Lucy) > Lucy[1:10,] ID Ubication 1 AB001 c1k1 2 AB002 c1k2 3 AB003 c1k3 4 AB004 c1k4 5 AB005 c1k5 6 AB006 c1k6 7 AB007 c1k7 8 AB008 c1k8 9 AB009 c1k9 10 AB010 c1k10
Level Zone Income Employees Taxes SPAM Small A 281 41 3.0 no Small A 329 19 4.0 yes Small A 405 68 7.0 no Small A 360 89 5.0 no Small A 391 91 7.0 yes Small A 296 89 3.0 no Small A 490 22 10.5 yes Small A 473 57 10.0 yes Small A 350 84 5.0 yes Small A 361 25 5.0 no
11
Las estadsticas concernientes a las variables en las poblacin se visualizan fcilmente con la funcin summary aplicada al conjunto de datos en Lucy . Se pueden considerar como parmetros las medidas que aprecen a continuacin?
> summary(Lucy) ID AB001 : 1 AB002 : 1 AB003 : 1 AB004 : 1 AB005 : 1 AB006 : 1 (Other):2390 Employees Min. : 1.00 1st Qu.: 38.00 Median : 63.00 Mean : 63.42 3rd Qu.: 84.00 Max. :263.00 Ubication c10k1 : 1 c10k10 : 1 c10k11 : 1 c10k12 : 1 c10k13 : 1 c10k14 : 1 (Other):2390 Level Big : 83 Medium: 737 Small :1576 Zone A:307 B:727 C:974 D:223 E:165 Income Min. : 1.0 1st Qu.: 230.0 Median : 390.0 Mean : 432.1 3rd Qu.: 576.0 Max. :2510.0
12
Taxes SPAM Min. : 0.50 no : 937 1st Qu.: 2.00 yes:1459 Median : 7.00 Mean : 11.96 3rd Qu.: 15.00 Max. :305.00
Un parmetro importante (con el cual se completan los objetivos de la investigacin) es el total poblacional de las caractersticas continuas:
> total <- function(x){length(x)*mean(x)} > attach(Lucy) > total(Income); total(Employees); total(Taxes) [1] 1035217 [1] 151950 [1] 28653.5 Casi siempre, en la mayora de las encuestas, > tapply(Income,Level,total) Big Medium Small 103706 487351 444160 > table(SPAM,Level) Level SPAM Big Medium Small no 26 291 620 yes 57 446 956
se quieren estimaciones por subgrupos poblacionales, en este caso estimaciones del total del ingreso por cada nivel industrial
En este caso el nmero de empresas que entregan SPAM, discriminado por nivel industrial
13
El sector industrial tiene altos ingresos que ascienden a 1.035.217 millones de dlares, aporta al gobierno 28.653 millones de dlares en tarifas impositivas y emplea un total de 151.950 personas.
Ntese que la mayora del ingreso del sector industrial es adquirido por las empresas medianas y pequeas. Sin embargo, en promedio las empresas grandes doblan el ingreso de las medianas que a su vez es tres veces el ingreso de las empresas pequeas. En trminos absolutos, la estrategia publicitaria de enviar SPAM a los clientes o potenciales clientes se implementa con mayor frecuencia en las empresas pequeas.
> xtabs(Income~Level+SPAM) SPAM Level no yes Big 31914 71792 Medium 190852 296499 Small 175186 268974
El ingreso de las empresas que utilizan el SPAM como estrategia de publicidad dobla el ingreso de las empresas que no utilizan SPAM en casi todos los niveles industriales.
14
> boxplot(Income
~ Level,main=c("Boxplot de Ingreso"))
Las empresas grandes tienen ingresos ms altos, aportan una carga impositiva ms alta y emplean a ms personas que las empresas medianas y pequeas. Es deseable que el marco de muestreo contenga la pertenencia al nivel industrial de cada empresa en la poblacin porque es un buen discriminante y permite la implementacin de estrategias de muestreo adecuadas que guen a estimaciones ms precisas.
15
Tambin es deseable conocer la correlacin entre las caractersticas de inters. Lo anterior puede servir al momento de plantear la mejor estrategia de muestreo.
> Datos <- data.frame(Income, Employees, Taxes) > cor(Datos) Income Employees Taxes Income 1.000000 0.645536 0.916954 Employees 0.645536 1.000000 0.646855 Taxes 0.916954 0.646855 1.000000 > pairs(Datos)
16
17
18
19
MuestreoBernoulli
Diseo de muestreo Bernoulli

Suponga que se debe seleccionar una muestra con un diseo de muestreo Bernoulli. Se quiere que el tamao esperado de muestra sea de N*pi=400 empresas del sector industrial. Como el tamao de la poblacin es N=2396, entonces el valor que se fija para pi es de 0.1669. Para seleccionar la muestra se utiliza la funcin S.BE(N, prob) del paquete TeachingSampling cuyos parmetros son N, el tamao poblacional y prob el valor de la probabilidad de inclusin para cada elemento de la poblacin. Esta funcin utiliza el algoritmo secuencial y debe examinar a todos los elementos de la poblacin.
21
> > > >
# Uses the Marco and Lucy data to draw a Bernoulli sample data(Marco) data(Lucy) attach(Lucy)
> N <- dim(Marco)[1] > # The population size is 2396. If the expected sample size is 400, > # then, the inclusion probability must be 400/2396=0.1669 > sam <- S.BE(N,0.1669) > # The information about the units in the sample is stored in an object called data > data <- Lucy[sam,] > data ID Ubication Level Zone Income Employees Taxes SPAM 7 AB007 c1k7 Small A 490 22 10.5 yes 8 AB008 c1k8 Small A 473 57 10.0 yes . . . > dim(data) [1] 387 8
Aplicando los ndices obtenidos por la funcin S.BE al marco de muestreo obtenemos la identificacin y ubicacin de las empresas seleccionadas en la muestra. Ntese que el tamao de muestra efectivo es de 387 empresas.
22
Estimador de HorvitzThompson para el total

Una vez que la etapa de recoleccin de datos se haya realizado, obtendremos un archivo de datos de Lucy conteniendo los valores de las caractersticas de inters para las empresas seleccionadas. La etapa de estimacin de resultados se hace utilizando la funcin E.BE(y,prob) del paquete TeachingSampling cuyos argumentos son y, un vector o matriz conteniendo los valores de las caractersticas de inters en la muestra y prob, la probabilidad de inclusin. En este caso la longitud de cada vector es de n=387. Esta funcin arroja la estimacin del total poblacional de y usando el estimador de HorvitzThompson, la estimacin de la varianza y el coeficiente de variacin estimado.
23
> dim(data) [1] 387 8 > sam <- S.BE(N,0.1669) > # The information about the units in the sample is stored in data > data <- Lucy[sam,] > attach(data)
!Es muy importante usar attach despus de la seleccin de la muestra!
> # The variables of interest are: Income, Employees and Taxes > # This information is stored in a data frame called estima > estima <- data.frame(Income, Employees, Taxes) > E.BE(estima,0.1669) Income Employees Taxes Estimation 1.024661e+06 1.468484e+05 2.954164e+04 Variance 3.205513e+09 6.104305e+07 6.029255e+06 CVE 5.525459e+00 5.320456e+00 8.311841e+00
24
Estimador alternativo para el total

Con ayuda de la funcin E.BE es posible calcular la estimacin alternativa para los totales de inters. Simplemente basta con definir la variable n que indica el tamao de muestra efectivo. > N <- dim(Marco)[1] > n <- dim(estima)[1] > colSums(estima) Income Employees 171016.0 24509.0 Taxes 4930.5
> (N/n)*colSums(estima) Income Employees Taxes 1047965.1 150188.1 30213.5 Como el estimador alternativo es una razn de estimadores, no es posible en este punto del curso obtener un estimativo para su varianza y por consiguiente no es posible calcular un cve.
25
Estimador de HorvitzThompson para la media

Con ayuda de la funcin E.BE es posible calcular la estimacin de HorvitzThompson para la media de las caractersticas de inters, tambin es posible estimar la varianza del estimador y calcular el cve. > est.mean <- E.BE(estima,0.1669)[1,]/N > est.mean Income Employees Taxes 427.65504 61.28899 12.32957 > est.var <- E.BE(estima,0.1669)[2,]/N^2 > est.var Income Employees Taxes 558.372331 10.633165 1.050244 > est.cve <- 100*sqrt(est.var)/est.mean > est.cve Income Employees Taxes 5.525459 5.320456 8.311841
26
Estimador alternativo para la media

Tambin es posible calcular la estimacin alternativa para la media de las caractersticas de inters. > (N/n)*colSums(estima)/N Income Employees Taxes 437.38107 62.68286 12.60997 Al igual que con el estimador alternativo para el total, no es posible en este punto del curso obtener un estimativo para su varianza y por consiguiente no es posible calcular un cve.
27
Estimador alternativo para el total

Es posible calcular la estimacin alternativa para los totales de inters. Simplemente basta con definir la variable n que indica el tamao de muestra efectivo. > N <- dim(Marco)[1] > n <- dim(estima)[1] > colSums(estima) Income Employees 171016.0 24509.0 Taxes 4930.5
> (N/n)*colSums(estima) Income Employees Taxes 1047965.1 150188.1 30213.5
28
Muestreoaleatoriosimple
Diseo de muestreo aleatorio simple sin reemplazo

Suponga que se debe seleccionar una muestra con un diseo de muestreo aleatorio simple sin reemplazo (SI). 1. Se debe calcular el tamao de muestras de empresas del sector industrial. 2. Se deben obtener estimaciones estadsticas del total y de la media para la poblacin del sector industrial. 3. Se deben obtener estimaciones discriminadas para los dominios de inters. 4. Con base en los resultados se debe proponer una poltica econmica de apoyo al sector industrial. Los dominios de inters estn relacionados con las prcticas publicitarias de las empresas. Luego, existe el dominio SPAM.SI, para las empresas que enva publicdad electrnica y SPAM.NO, para las empresas que no envan este tipo de publicidad.
30
La estrategia de muestreo que se va a utilizar es la siguiente: el estimador de HorvitzThompson aplicado a un diseo de muestreo aleatorio simple sin reemplazo. Se selecciona una muestra piloto de tamao 30 de la poblacin. Para esto, una vez cargado el archivo de datos Lucy, utilizamos la funcin sample para extraer la muestra piloto. La caracterstica de inters es el ingreso de las empresas, tomamos los valores de la varianza y de la media como estimaciones que servirn para el clculo del tamao de la muestra. > data(Lucy) > attach(Lucy) > N <- dim(Lucy)[1] > sam <- sample(N,30) > Ingresopiloto <- Income[sam] > var(Ingresopiloto) [1] 66952.62 > mean(Ingresopiloto) [1] 455
31
Se requieren que las estimaciones cumplan: Error absoluto: el margen de error para este estudio es de 25 millones de dlares en el total del ingreso de las empresas de la poblacin. Nivel de confianza del 95 %. Mediante (3.2.16) se tiene que n0 = 411.
Al utilizar el factor de correccin de poblaciones finitas, llegamos a que n 351.
32
Se requieren que las estimaciones cumplan: Error relativo: el margen de error relativo debe ser de menos del 7% en el total del ingreso de las empresas de la poblacin. Nivel de confianza del 95 %. Mediante (3.2.18) se tiene que k0 = 446.
Al utilizar el factor de correccin de poblaciones finitas, llegamos a que n 376.
Enconclusin,seproponeuntamaodemuestra den=400encuestas
33
Diseo de muestreo aleatorio simple sin reemplazo

Se debe seleccionar una muestra con un diseo de muestreo aleatorio simple sin reemplazo (SI). Para seleccionar la muestra se utiliza la funcin S.SI(N, n) del paquete TeachingSampling cuyos parmetros son N, el tamao poblacional y n, el tamao de muestra. Esta funcin utiliza el algoritmo de FanMullerRezucha. Esta ocasin, no slo se preguntar acerca del ingreso, impuestos y nmero de empleados en el ao fiscal de inters, tambin se preguntar acerca de la membreca de las empresas a los dominios; es decir si manda o no SPAM a sus clientes o posibles clientes.
34
> N <- dim(Lucy)[1] > n <- 400 > sam<-S.SI(N,n) > # The information about the units in the sample is stored in an object called data > data <- Lucy[sam,] > data ID Ubication Level Zone Income Employees Taxes SPAM 1 AB001 c1k1 Small A 281 41 3.0 no 3 AB003 c1k3 Small A 405 68 7.0 no 7 AB007 c1k7 Small A 490 22 10.5 yes . . . > dim(data) [1] 400 8
Aplicando los ndices obtenidos por la funcin S.SI al marco de muestreo obtenemos la identificacin y ubicacin de las 400 empresas seleccionadas en la muestra.
35

Una vez que la etapa de recoleccin de datos se haya realizado, obtendremos un archivo de datos de Lucy conteniendo los valores de las caractersticas de inters para las empresas seleccionadas. La etapa de estimacin de resultados se hace utilizando la funcin E.SI(N,n,y) del paquete TeachingSampling cuyos argumentos son los mismos que la funcin S.SI ms y, un vector o matriz conteniendo los valores de las caractersticas de inters en la muestra. En este caso la longitud de cada vector es de n=400. Esta funcin arroja la estimacin del total poblacional de y usando el estimador de HorvitzThompson, la estimacin de la varianza y el coeficiente de variacin estimado.
36

> attach(data) > # The variables of interest are: Income, Employees and Taxes > # This information is stored in a data frame called estima > estima <- data.frame(Income, Employees, Taxes) > E.SI(N,n,estima) Income Employees Taxes Estimation 1.006769e+06 1.533440e+05 2.679028e+04 Variance 7.805793e+08 1.202052e+07 2.680269e+06 CVE 2.775100e+00 2.260971e+00 6.110996e+00
37

Con ayuda de la funcin E.SI es posible calcular la estimacin de HorvitzThompson para la media de las caractersticas de inters, tambin es posible estimar la varianza del estimador y calcular el cve. > est.mean <- E.SI(N,n,estima)[1,]/N > est.mean Income Employees Taxes 420.18750 64.00000 11.18125 > est.var <- E.SI(N,n,estima)[2,]/N^2 > est.var Income Employees Taxes 135.9700878 2.0938704 0.4668794 > est.cve <- 100*sqrt(est.var)/est.mean > est.cve Income Employees Taxes 2.775100 2.260971 6.110996
38
Constitucindelosdominios
> # The variable SPAM is a domain of interest > Doma <- Domains(SPAM) > # This function allows to estimate the parameters of the variables of interest for every category in the domain SPAM > estima <- data.frame(Income, Employees, Taxes) > SPAM.no <- estima*Doma[,1] > SPAM.yes <- estima*Doma[,2]
Suponga que los dominios de inters son los subgrupos que envan o no SPAM. Lo anterior conforma una particin de la poblacin de empresas del sector industrial y adems no se conoce a priori cules empresas acostumbran a publicitar por este medio. La funcin Domains() crea las variables indicadoras para cada dominio. Recuerde que estos ceros y unos se multiplican con los valores de las caractersticas de inters.
39
EstimadordeHorvitzThompsonparaeltotaldelos dominios
> E.SI(N,n,SPAM.no) Income Employees Taxes Estimation 3.656595e+05 5.710866e+04 9.500140e+03 Variance 7.495751e+08 1.544580e+07 1.190420e+06 CVE 7.487393e+00 6.881818e+00 1.148471e+01 > E.SI(N,n,SPAM.yes) Income Employees Taxes Estimation 6.411097e+05 9.623534e+04 1.729014e+04 Variance 1.009908e+09 1.952392e+07 2.175746e+06 CVE 4.956882e+00 4.591440e+00 8.531113e+00 Ntese que la suma de los totales estimados en los dominios es igual a la estimacin HT para las caractersticas de inters. Por ejemplo, para la caracterstica Income, se tiene que 365659.5 +641109.7 = 1006769
40
!Es importante realizar esta verificacin!
Estimadorparaeltamaoabsoluto
Con ayuda del objeto DOMA y utilizando la funcin Domains es posible calcular la estimacin del tamao absoluto de cada uno de los dos dominios y obtener su correspondiente c.v.e. > E.SI(N,n,Doma[,1]) y Estimation 988.350000 Variance 2904.733402 CVE 5.453086 > E.SI(N,n,Doma[,2]) y Estimation 1407.650000 Variance 2904.733402 CVE 3.828763
41
Estimador para las medias en los dominios

Con ayuda de las anteriores funciones podemos obtener un estimativo para la media de cada dominio. Como se trata de una razn , an no es posible obtener su c.v.e. > E.SI(N,n,SPAM.no)[1,] / E.SI(N,n,Doma[,1])[1,] Income Employees 421.22424 61.59394 Taxes 11.11818
> E.SI(N,n,SPAM.yes)[1,] / E.SI(N,n,Doma[,2])[1,] Income Employees 424.88511 62.34894 Taxes 11.18085
Existen diferenciasen promedio paralas empresasque publicitan electrnicamente?

42
Muestreoaleatoriosimple conreemplazo
Diseo de muestreo aleatorio simple con reemplazo

Suponga que se debe seleccionar una muestra con un diseo de muestreo aleatorio simple con reemplazo de tamao m=400 empresas del sector industrial. Existen varios mtodos para la seleccin de un muestra simple con reemplazo; en el ambiente bsico computacional de R, la funcin sample permite seleccionar una muestra simple cuando la opcin replace es igual a TRUE. sample(N,m, replace=TRUE) Para extraer muestreas simples con reemplazo, el paquete TeachingSampling utiliza un algoritmo secuencial basado en la distribucin binomial, mediante la funcin S.WR cuyos argumentos son N, el tamao de la poblacin y m, el tamao de la muestra con reemplazo.
44
> N <- dim(Marco)[1] > m <- 400 > sam<-S.WR(N,m) > # The information about the units in the sample is stored in an object called data > data <- Lucy[sam,] > data ID Ubication Level Zone Income Employees Taxes SPAM 16 AB016 c1k16 Small A 340 12 5.0 no 25 AB025 c1k25 Small A 365 49 6.0 yes 26 AB026 c1k26 Small A 380 38 6.0 no 40 AB040 c1k40 Small A 491 86 10.5 yes 45 AB045 c1k45 Small A 365 53 6.0 yes 46 AB046 c1k46 Small A 346 56 5.0 no 49 AB050 c1k49 Small A 334 16 5.0 no 49.1 AB050 c1k49 Small A 334 16 5.0 no 69 AB072 c1k69 Small A 390 95 7.0 yes ...
Aplicando los ndices obtenidos por la funcin S.WR al marco de muestreo obtenemos la identificacin y ubicacin de las empresas seleccionadas en la muestra. Vase que la empresa que est en el lugar 49 del marco de muestreo fue seleccionada dos veces en la muestra con reemplazo.
45
Estimador de HansenHurwitz para el total

Una vez que la etapa de recoleccin de datos se haya realizado, obtendremos un archivo de datos de Lucy conteniendo los valores de las caractersticas de inters para las empresas seleccionadas. La etapa de estimacin de resultados se hace utilizando la funcin E.WR(N,m,y) del paquete TeachingSampling cuyos argumentos son los mismos de la funcin S.WR ms y, un vector o matriz conteniendo los valores de las caractersticas de inters en la muestra. Esta funcin arroja la estimacin del total poblacional de y usando el estimador de HansenHurwitz, la estimacin de la varianza y el coeficiente de variacin estimado.
46
Estimador de HansenHurwitz para el total

> data <- Lucy[sam,] > attach(data) > # The variables of interest are: Income, Employees and Taxes > # This information is stored in a data frame called estima > estima <- data.frame(Income, Employees, Taxes) > E.WR(N,m,estima) Income Employees Taxes Estimation 1.099207e+06 1.572734e+05 3.209143e+04 Variance 1.077487e+09 1.721914e+07 5.217604e+06 CVE 2.986253e+00 2.638459e+00 7.117813e+00
Con el mismo tamao de muestra, la estrategia que utiliza el diseo de muestreo aleatorio simple sin reemplazo arroja menores estimaciones del coeficiente de variacin. Es el precio que se paga por duplicar informacin en la muestra.
47
Estimador de HansenHurwitz para la media

Con ayuda de la funcin E.WR es posible calcular la estimacin de HansenHurwitz para la media de las caractersticas de inters, tambin es posible estimar la varianza del estimador y calcular el cve. > est.mean <- E.WR(N,m,estima)[1,]/N > est.mean Income Employees Taxes 458.76750 65.64000 13.39375 > est.var <- E.WR(N,m,estima)[2,]/N^2 > est.var Income Employees Taxes 187.6888683 2.9994246 0.9088611 > est.cve <- 100*sqrt(est.var)/est.mean > est.cve Income Employees Taxes 2.986253 2.638459 7.117813
48

Coomo es bien sabido, una vez que se definan las probabilidades de seleccin para cada elemento en la poblacin, las probabilidades de inclusin quedan definidas inmediatamente. Por tanto, es posible utilizar el estimador de HorvitzThompon para acceder a una estimacin del total de las caractersticas de inters. Con ayuda de la funcin HT es posible realizar las estimaciones. > > > > # The vector of selection probabilities of units in the sample pk <- rep(1/N,m) # Computation of the inclusion probabilities Pik <- 1-(1-pk)^m
> HT(estima, Pik) [,1] Income 1193283.34 Employees 170733.80 Taxes 34837.99 Las estimaciones de varianza y c.v.e no se proporcionan puesto que la varianza del estimador de HorvtizThompson tiene una forma compleja.
49
Efecto de diseo
La prdida de eficiencia en esta estrategia se puede estimar con el Deff. Simplemente realizando el cociente de las varianzas estimadas es posible establecer que, para este caso particular, la estrategia de muestreo simple sin reemplazo con el estimador HT es mejor. Para el caso de muestreo simple sin reemplazo: Income Employees Taxes Variance 7.805793e+08 1.202052e+07 2.680269e+06 Para el caso de muestreo simple con reemplazo: Income Employees Taxes Variance 1.077487e+09 1.721914e+07 5.217604e+06 Las estimaciones del efecto de diseo: Income Employees Deff 1.371 1.433 Taxes 1.944
50
Muestreosistemtico
Diseo de muestreo sistemtico

Ntese que las caractersticas de inters son Ingreso, nmero de empleados e impuestos declarados en el ltimo ao fiscal y se supone, de manera correcta, que estas caractersticas no tienen ninguna relacin con la fecha de registro de la empresa. As, puede suceder que una empresa joven, tenga unos altos rditos, pocos empleados y una alta declaracin de impuestos, pero puede suceder lo contrario; de hecho, este comportamiento est sujeto a la estrategia de marketing utilizada en cada periodo comercial y no a la antigedad del negocio. Por las anteriores razones, se supone que el ordenamiento del marco de muestreo es completamente aleatorio. Se ha decidido que la poblacin va a ser particionada en cinco grupos, de tal forma que el tamao efectivo de muestra va a ser 479 o 480.
52
La seleccin de la muestra se realiza mediante la funcin S.SY cuyos argumentos son N, el tamao de la poblacin y a, el nmero de grupos. Esta funcin asigna aleatoriamente un arranque y salta, en este caso, de seis en seis elementos hasta barrer toda la lista.
> N <- dim(Marco)[1] > a <- 6 > > > > # The population is divided in 6 groups of size 399 or 400 sam <- S.SY(N,a) data <- Marco[sam,] data ID Ubication AB006 c1k6 AB012 c1k12 AB018 c1k18 AB912 AB983 c26k9 c26k15 Level Zone Small A Small A Small A Big Big E E
6 12 18 ... 2385 2391
> dim(data) [1] 399 4

53

Una vez recolectada la informacin de la muestra, se procede a realizar la estimacin mediante el uso de la funcin E.SY cuyos argumentos son N, a y un conjunto de datos conteniendo la informacin de las caractersticas de inters para cada elemento en la muestra.
> data <- Lucy[sam,] > attach(data) > estima <- data.frame(Income, Employees, Taxes) > E.SY(N,a,estima) Income Employees Taxes Estimation 1.032540e+06 1.552320e+05 2.775300e+04 Variance 7.744526e+08 1.294529e+07 2.392375e+06 CVE 2.695197e+00 2.317793e+00 5.573201e+00 Esta es una aproximacin conservadora de la varianza estimada suponiendo muestreo simple sin reemplazo.
Es de considerar que la eficiencia de esta estrategia de muestreo es mayor a la de una estrategia que utilice un diseo de muestreo aleatorio simple.
54

Con ayuda de la funcin E.SY es posible calcular la estimacin de HorvitzThompson para la media de las caractersticas de inters, tambin es posible estimar la varianza del estimador y calcular el cve. > est.mean <- E.SY(N,a,estima)[1,]/N > est.mean Income Employees Taxes 430.94324 64.78798 11.58306 > est.var <- E.SY(N,a,estima)[2,]/N^2 > est.var Income Employees Taxes 134.9028862 2.2549572 0.4167308 > est.cve <- 100*sqrt(est.var)/est.mean > est.cve Income Employees Taxes 2.695197 2.317793 5.573201
55
Correlacin intraclase
Esta medida de correlacin entre los pares de elementos de los grupos formados toma una valor mximo igual a uno cuando SCE es nula y toma un valor mnimo de ( 1 / n1) cuando SCE es mxima. En particular, es deseable para esta estrategia que tome valores cercanos a cero. Por otra parte, es posible demostrar que el efecto de diseo, el cociente entre las varianzas, toma la siguiente expresin:
De esta manera, se tiene que el muestreo sistemtico ser: 1. Igual de eficiente al muestreo aleatorio simple si = (1 / 1N). 2. Menos eficiente que el muestreo aleatorio simple si > (1 / 1N). 3. Ms eficiente que el muestreo aleatorio simple s < (1 / 1N).
56
ANOVALucy
Con las sumas de cuadrados se demuestra que esta estrategia es ms eficiente que el muestreo aleatorio simple. Lo anterior sugiere que la utilizacin de la expresin de la varianza para un muestreo simple sin reemplazo como aproximacin de la varianza del muestreo sistemtico es una buena escogencia puesto que sobreestima la varianza verdadera. > > > > grupo <- as.factor(array(1:a,N)) data(Lucy) attach(Lucy) anova(lm(Income~grupo))
Response: Income Df Sum Sq Mean Sq F value Pr(>F) grupo 5 12359 2472 0.0346 0.9994 Residuals 2390 170698187 71422 > n <- dim(data)[1] > rho <- 1-(n/(n-1))*(170698187/(170698187+12359)) > rho [1] -0.002439984 > rho < 1/(1-N) [1] TRUE
57
La ganancia en eficiencia al usar este diseo es de casi veintinueve veces puesto que el efecto de diseo es aproximadamente 0.034. > Deff <- (N-1)*(1+(n-1)*rho)/(N-n) > Deff [1] 0.03464363 > 1/Deff [1] 28.86534 Por outro lado, la varianza del estimador HT para la caracterstica de inters Income es > VarHT <- N*12359 > VarHT [1] 29612164 Es mucho menor que el estimativo arrojado por la expresin del muestreo simple sin reemplazo.
58
El poder de la visualizacin en personas altamente efectivas Stephen Covey

TeoriaElementalMuestreo R

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

TeoriaElementalMuestreo R

Uploaded by

Copyright:

Available Formats

Cursoseminariosobrediseoyanlisisde encuestas: ParteI Estrategiasdemuestreoparaelementos

Diseo de muestreo Bernoulli

> > > >

Estimador de HorvitzThompson para el total

Estimador alternativo para el total

Estimador de HorvitzThompson para la media

Estimador alternativo para la media

Estimador alternativo para el total

> (N/n)*colSums(estima) Income Employees Taxes 1047965.1 150188.1 30213.5

Diseo de muestreo aleatorio simple sin reemplazo

Al utilizar el factor de correccin de poblaciones finitas, llegamos a que n 351.

Al utilizar el factor de correccin de poblaciones finitas, llegamos a que n 376.

Diseo de muestreo aleatorio simple sin reemplazo

Estimador de HorvitzThompson para el total

Estimador de HorvitzThompson para el total

Estimador de HorvitzThompson para la media

!Es importante realizar esta verificacin!

Estimador para las medias en los dominios

> E.SI(N,n,SPAM.yes)[1,] / E.SI(N,n,Doma[,2])[1,] Income Employees 424.88511 62.34894 Taxes 11.18085

Existen diferenciasen promedio paralas empresasque publicitan electrnicamente?

Diseo de muestreo aleatorio simple con reemplazo

Estimador de HansenHurwitz para el total

Estimador de HansenHurwitz para el total

Estimador de HansenHurwitz para la media

Estimador de HorvitzThompson para el total

Diseo de muestreo sistemtico

6 12 18 ... 2385 2391

> dim(data) [1] 399 4

Estimador de HorvitzThompson para el total

Estimador de HorvitzThompson para la media

El poder de la visualizacin en personas altamente efectivas Stephen Covey

You might also like