Professional Documents
Culture Documents
LaVisin
Lesdimosunmapadellugar adondeiban JohnMaxwell
Objetivo:
Conocer las bondades y desventajas de las principales estrategias de muestreo cuando se tienen marcos de muestreo de elementos utilizando programacin en R.
Contenido:
Esta presentacin est enfocada en el desarrollo prctico de una encuesta en la poblacin LUCY con el marco muestral MARCO: 1. 2. 3. 4. 5. 6.
Bibliografia: Estrategiasdemuestreo.Gutirrez(2009).USTA. ModelAssistedSurveySampling.Sarndal (1992).Springer.
R y TeachingSampling Marco y Lucy Estrategias para muestreo Bernoulli Estrategias para muestreo M.A.S. Estrategias para muestreo M.A.S.R. Estrategias para muestreo Sistemtico
MarcoyLucy
Si usted es usuario de paquetes como SAS, SPSS, Stata, o Systat por qu usar R? 1. Es gratis. Si usted es un profesor o un estudiante, los beneficios son obvios. Si trabaja en una empresa, su jefe lo valorar ms cuando se entere que ya no debe pagar la licencia anual para realizar sus anlisis estadsticos. 2. Es ejecutable en una variedad de plataformas incluyendo Windows, Unix y MacOS. 3. Provee una plataforma para la programacin de nuevos mtodos estadsticos de un amanera sencilla. 4. Contiene rutinas estadsticas avanzadas que an no estn disponibles en otros paquetes. 5. Genera potentes grficos actualizados con el estado del arte. 6. Las rutinas creadas en R ya pueden ser cargadas y ejecutadas en otros importantes softwares como SAS y SPSS
6
TeachingSampling: Sampling designs and parameter estimation in finite population Foundations of inference in survey sampling Version: 1.4.9 Depends: R ( 2.6.0) Published: 2010-03-11 Author: Hugo Andres Gutierrez Rojas Maintainer: Hugo Andres Gutierrez Rojas <hugogutierrez at usantotomas.edu.co> License: GPL ( 2) URL: http://www.predictive.wordpress.com/stats/
En R: Men Paquetes Instalar paquete escoger el servidor de preferencia buscar y hacer clic en TeachingSampling. Cargar el paquete con la siguiente instruccin:
> library(TeachingSampling)
7
Lucy se refiere a una poblacin de empresas del sector industrial. Marco se refiere al marco de muestreo que se requiere para disear una encuesta probabilstica que permita inferir acerca de Lucy. La poblacin objetivo la conforman todas las empresas cuya actividad principal est ligada al sector industrial. El proceso de medicin se har con base en: ingresos en el ltimo ao fiscal, impuestos declarados en el ltimo ao fiscal y nmero de empleados. Adicionalmente, se requiere conocer si la empresa enva peridicamente algn tipo de material publicitario por correo electrnico. Para obtener las respuestas, un entrevistador visitar las instalaciones fsicas de la empresa y realizar las siguientes preguntas: 1. En el ltimo ao fiscal, a cunto ascendieron los ingresos en esta empresa? 2. En el ltimo ao fiscal, a cunto ascendieron los impuestos declarados por esta empresa? 3. Actualmente, cuntos empleados laboran para esta empresa? 4. Esta empresa acostumbra a enviar peridicamente material publicitario por correo electrnico a sus clientes o potenciales clientes?
8
Para abordar la seleccin de una muestra que permita la inferencia acerca del crecimiento econmico del sector, se dispone de un marco de muestreo con las siguientes caractersticas para cada empresa que conforma la poblacin. 1. Identificador: es una secuencia alfanumrica de dos letras y tres dgitos. Este nmero de identificacin se le otorga a cada empresa en el momento de la constitucin legal ante la entidad de registro pertinente. 2. Ubicacin: es la direccin que se encuentra registrada en la declaracin de impuestos. 3. Zona: la ciudad est conformada por barrios o zonas geogrficas. Dependiendo de la direccin, la empresa pertenece a una y slo una zona geogrfica de la ciudad. 4. Nivel: segn los registros tributarios, las empresas se catalogan en tres grupos: 1. Grandes: empresas que tributan 49 millones de dlares al ao o ms. 2. Medianas: empresas que tributan ms de 11 millones y menos de 49 millones de dlares al ao. 3. Pequeas: empresas que tributan 11 millones de dlares al ao o menos.
9
La informacin concerniente a las primeras 10 empresas del marco de muestreo se visualiza con el siguiente cdigo computacional en R:
> data(Marco) > Marco[1:10,] ID Ubication 1 AB001 c1k1 2 AB002 c1k2 3 AB003 c1k3 4 AB004 c1k4 5 AB005 c1k5 6 AB006 c1k6 7 AB007 c1k7 8 AB008 c1k8 9 AB009 c1k9 10 AB010 c1k10
Level Zone Small A Small A Small A Small A Small A Small A Small A Small A Small A Small A
> names(Marco) [1] "ID "Ubication "Level "Zone > dim(Marco) [1] 2396 4
10
La informacin de todas las caractersticas de inters concerniente a las primeras 10 empresas de la poblacin de empresas del sector industrial se visualiza con el siguiente cdigo computacional en R:
> data(Lucy) > Lucy[1:10,] ID Ubication 1 AB001 c1k1 2 AB002 c1k2 3 AB003 c1k3 4 AB004 c1k4 5 AB005 c1k5 6 AB006 c1k6 7 AB007 c1k7 8 AB008 c1k8 9 AB009 c1k9 10 AB010 c1k10
Level Zone Income Employees Taxes SPAM Small A 281 41 3.0 no Small A 329 19 4.0 yes Small A 405 68 7.0 no Small A 360 89 5.0 no Small A 391 91 7.0 yes Small A 296 89 3.0 no Small A 490 22 10.5 yes Small A 473 57 10.0 yes Small A 350 84 5.0 yes Small A 361 25 5.0 no
11
Las estadsticas concernientes a las variables en las poblacin se visualizan fcilmente con la funcin summary aplicada al conjunto de datos en Lucy . Se pueden considerar como parmetros las medidas que aprecen a continuacin?
> summary(Lucy) ID AB001 : 1 AB002 : 1 AB003 : 1 AB004 : 1 AB005 : 1 AB006 : 1 (Other):2390 Employees Min. : 1.00 1st Qu.: 38.00 Median : 63.00 Mean : 63.42 3rd Qu.: 84.00 Max. :263.00 Ubication c10k1 : 1 c10k10 : 1 c10k11 : 1 c10k12 : 1 c10k13 : 1 c10k14 : 1 (Other):2390 Level Big : 83 Medium: 737 Small :1576 Zone A:307 B:727 C:974 D:223 E:165 Income Min. : 1.0 1st Qu.: 230.0 Median : 390.0 Mean : 432.1 3rd Qu.: 576.0 Max. :2510.0
12
Taxes SPAM Min. : 0.50 no : 937 1st Qu.: 2.00 yes:1459 Median : 7.00 Mean : 11.96 3rd Qu.: 15.00 Max. :305.00
Un parmetro importante (con el cual se completan los objetivos de la investigacin) es el total poblacional de las caractersticas continuas:
> total <- function(x){length(x)*mean(x)} > attach(Lucy) > total(Income); total(Employees); total(Taxes) [1] 1035217 [1] 151950 [1] 28653.5 Casi siempre, en la mayora de las encuestas, > tapply(Income,Level,total) Big Medium Small 103706 487351 444160 > table(SPAM,Level) Level SPAM Big Medium Small no 26 291 620 yes 57 446 956
se quieren estimaciones por subgrupos poblacionales, en este caso estimaciones del total del ingreso por cada nivel industrial
En este caso el nmero de empresas que entregan SPAM, discriminado por nivel industrial
13
El sector industrial tiene altos ingresos que ascienden a 1.035.217 millones de dlares, aporta al gobierno 28.653 millones de dlares en tarifas impositivas y emplea un total de 151.950 personas.
Ntese que la mayora del ingreso del sector industrial es adquirido por las empresas medianas y pequeas. Sin embargo, en promedio las empresas grandes doblan el ingreso de las medianas que a su vez es tres veces el ingreso de las empresas pequeas. En trminos absolutos, la estrategia publicitaria de enviar SPAM a los clientes o potenciales clientes se implementa con mayor frecuencia en las empresas pequeas.
> xtabs(Income~Level+SPAM) SPAM Level no yes Big 31914 71792 Medium 190852 296499 Small 175186 268974
El ingreso de las empresas que utilizan el SPAM como estrategia de publicidad dobla el ingreso de las empresas que no utilizan SPAM en casi todos los niveles industriales.
14
> boxplot(Income
~ Level,main=c("Boxplot de Ingreso"))
Las empresas grandes tienen ingresos ms altos, aportan una carga impositiva ms alta y emplean a ms personas que las empresas medianas y pequeas. Es deseable que el marco de muestreo contenga la pertenencia al nivel industrial de cada empresa en la poblacin porque es un buen discriminante y permite la implementacin de estrategias de muestreo adecuadas que guen a estimaciones ms precisas.
15
Tambin es deseable conocer la correlacin entre las caractersticas de inters. Lo anterior puede servir al momento de plantear la mejor estrategia de muestreo.
> Datos <- data.frame(Income, Employees, Taxes) > cor(Datos) Income Employees Taxes Income 1.000000 0.645536 0.916954 Employees 0.645536 1.000000 0.646855 Taxes 0.916954 0.646855 1.000000 > pairs(Datos)
16
17
18
19
MuestreoBernoulli
21
# Uses the Marco and Lucy data to draw a Bernoulli sample data(Marco) data(Lucy) attach(Lucy)
> N <- dim(Marco)[1] > # The population size is 2396. If the expected sample size is 400, > # then, the inclusion probability must be 400/2396=0.1669 > sam <- S.BE(N,0.1669) > # The information about the units in the sample is stored in an object called data > data <- Lucy[sam,] > data ID Ubication Level Zone Income Employees Taxes SPAM 7 AB007 c1k7 Small A 490 22 10.5 yes 8 AB008 c1k8 Small A 473 57 10.0 yes . . . > dim(data) [1] 387 8
Aplicando los ndices obtenidos por la funcin S.BE al marco de muestreo obtenemos la identificacin y ubicacin de las empresas seleccionadas en la muestra. Ntese que el tamao de muestra efectivo es de 387 empresas.
22
23
> dim(data) [1] 387 8 > sam <- S.BE(N,0.1669) > # The information about the units in the sample is stored in data > data <- Lucy[sam,] > attach(data)
!Es muy importante usar attach despus de la seleccin de la muestra!
> # The variables of interest are: Income, Employees and Taxes > # This information is stored in a data frame called estima > estima <- data.frame(Income, Employees, Taxes) > E.BE(estima,0.1669) Income Employees Taxes Estimation 1.024661e+06 1.468484e+05 2.954164e+04 Variance 3.205513e+09 6.104305e+07 6.029255e+06 CVE 5.525459e+00 5.320456e+00 8.311841e+00
24
> (N/n)*colSums(estima) Income Employees Taxes 1047965.1 150188.1 30213.5 Como el estimador alternativo es una razn de estimadores, no es posible en este punto del curso obtener un estimativo para su varianza y por consiguiente no es posible calcular un cve.
25
27
28
Muestreoaleatoriosimple
30
La estrategia de muestreo que se va a utilizar es la siguiente: el estimador de HorvitzThompson aplicado a un diseo de muestreo aleatorio simple sin reemplazo. Se selecciona una muestra piloto de tamao 30 de la poblacin. Para esto, una vez cargado el archivo de datos Lucy, utilizamos la funcin sample para extraer la muestra piloto. La caracterstica de inters es el ingreso de las empresas, tomamos los valores de la varianza y de la media como estimaciones que servirn para el clculo del tamao de la muestra. > data(Lucy) > attach(Lucy) > N <- dim(Lucy)[1] > sam <- sample(N,30) > Ingresopiloto <- Income[sam] > var(Ingresopiloto) [1] 66952.62 > mean(Ingresopiloto) [1] 455
31
Se requieren que las estimaciones cumplan: Error absoluto: el margen de error para este estudio es de 25 millones de dlares en el total del ingreso de las empresas de la poblacin. Nivel de confianza del 95 %. Mediante (3.2.16) se tiene que n0 = 411.
32
Se requieren que las estimaciones cumplan: Error relativo: el margen de error relativo debe ser de menos del 7% en el total del ingreso de las empresas de la poblacin. Nivel de confianza del 95 %. Mediante (3.2.18) se tiene que k0 = 446.
Enconclusin,seproponeuntamaodemuestra den=400encuestas
33
34
> N <- dim(Lucy)[1] > n <- 400 > sam<-S.SI(N,n) > # The information about the units in the sample is stored in an object called data > data <- Lucy[sam,] > data ID Ubication Level Zone Income Employees Taxes SPAM 1 AB001 c1k1 Small A 281 41 3.0 no 3 AB003 c1k3 Small A 405 68 7.0 no 7 AB007 c1k7 Small A 490 22 10.5 yes . . . > dim(data) [1] 400 8
Aplicando los ndices obtenidos por la funcin S.SI al marco de muestreo obtenemos la identificacin y ubicacin de las 400 empresas seleccionadas en la muestra.
35
36
37
Constitucindelosdominios
> # The variable SPAM is a domain of interest > Doma <- Domains(SPAM) > # This function allows to estimate the parameters of the variables of interest for every category in the domain SPAM > estima <- data.frame(Income, Employees, Taxes) > SPAM.no <- estima*Doma[,1] > SPAM.yes <- estima*Doma[,2]
Suponga que los dominios de inters son los subgrupos que envan o no SPAM. Lo anterior conforma una particin de la poblacin de empresas del sector industrial y adems no se conoce a priori cules empresas acostumbran a publicitar por este medio. La funcin Domains() crea las variables indicadoras para cada dominio. Recuerde que estos ceros y unos se multiplican con los valores de las caractersticas de inters.
39
EstimadordeHorvitzThompsonparaeltotaldelos dominios
> E.SI(N,n,SPAM.no) Income Employees Taxes Estimation 3.656595e+05 5.710866e+04 9.500140e+03 Variance 7.495751e+08 1.544580e+07 1.190420e+06 CVE 7.487393e+00 6.881818e+00 1.148471e+01 > E.SI(N,n,SPAM.yes) Income Employees Taxes Estimation 6.411097e+05 9.623534e+04 1.729014e+04 Variance 1.009908e+09 1.952392e+07 2.175746e+06 CVE 4.956882e+00 4.591440e+00 8.531113e+00 Ntese que la suma de los totales estimados en los dominios es igual a la estimacin HT para las caractersticas de inters. Por ejemplo, para la caracterstica Income, se tiene que 365659.5 +641109.7 = 1006769
40
Estimadorparaeltamaoabsoluto
Con ayuda del objeto DOMA y utilizando la funcin Domains es posible calcular la estimacin del tamao absoluto de cada uno de los dos dominios y obtener su correspondiente c.v.e. > E.SI(N,n,Doma[,1]) y Estimation 988.350000 Variance 2904.733402 CVE 5.453086 > E.SI(N,n,Doma[,2]) y Estimation 1407.650000 Variance 2904.733402 CVE 3.828763
41
Muestreoaleatoriosimple conreemplazo
44
> N <- dim(Marco)[1] > m <- 400 > sam<-S.WR(N,m) > # The information about the units in the sample is stored in an object called data > data <- Lucy[sam,] > data ID Ubication Level Zone Income Employees Taxes SPAM 16 AB016 c1k16 Small A 340 12 5.0 no 25 AB025 c1k25 Small A 365 49 6.0 yes 26 AB026 c1k26 Small A 380 38 6.0 no 40 AB040 c1k40 Small A 491 86 10.5 yes 45 AB045 c1k45 Small A 365 53 6.0 yes 46 AB046 c1k46 Small A 346 56 5.0 no 49 AB050 c1k49 Small A 334 16 5.0 no 49.1 AB050 c1k49 Small A 334 16 5.0 no 69 AB072 c1k69 Small A 390 95 7.0 yes ...
Aplicando los ndices obtenidos por la funcin S.WR al marco de muestreo obtenemos la identificacin y ubicacin de las empresas seleccionadas en la muestra. Vase que la empresa que est en el lugar 49 del marco de muestreo fue seleccionada dos veces en la muestra con reemplazo.
45
46
Con el mismo tamao de muestra, la estrategia que utiliza el diseo de muestreo aleatorio simple sin reemplazo arroja menores estimaciones del coeficiente de variacin. Es el precio que se paga por duplicar informacin en la muestra.
47
> HT(estima, Pik) [,1] Income 1193283.34 Employees 170733.80 Taxes 34837.99 Las estimaciones de varianza y c.v.e no se proporcionan puesto que la varianza del estimador de HorvtizThompson tiene una forma compleja.
49
Efecto de diseo
La prdida de eficiencia en esta estrategia se puede estimar con el Deff. Simplemente realizando el cociente de las varianzas estimadas es posible establecer que, para este caso particular, la estrategia de muestreo simple sin reemplazo con el estimador HT es mejor. Para el caso de muestreo simple sin reemplazo: Income Employees Taxes Variance 7.805793e+08 1.202052e+07 2.680269e+06 Para el caso de muestreo simple con reemplazo: Income Employees Taxes Variance 1.077487e+09 1.721914e+07 5.217604e+06 Las estimaciones del efecto de diseo: Income Employees Deff 1.371 1.433 Taxes 1.944
50
Muestreosistemtico
52
La seleccin de la muestra se realiza mediante la funcin S.SY cuyos argumentos son N, el tamao de la poblacin y a, el nmero de grupos. Esta funcin asigna aleatoriamente un arranque y salta, en este caso, de seis en seis elementos hasta barrer toda la lista.
> N <- dim(Marco)[1] > a <- 6 > > > > # The population is divided in 6 groups of size 399 or 400 sam <- S.SY(N,a) data <- Marco[sam,] data ID Ubication AB006 c1k6 AB012 c1k12 AB018 c1k18 AB912 AB983 c26k9 c26k15 Level Zone Small A Small A Small A Big Big E E
Es de considerar que la eficiencia de esta estrategia de muestreo es mayor a la de una estrategia que utilice un diseo de muestreo aleatorio simple.
54
Correlacin intraclase
Esta medida de correlacin entre los pares de elementos de los grupos formados toma una valor mximo igual a uno cuando SCE es nula y toma un valor mnimo de ( 1 / n1) cuando SCE es mxima. En particular, es deseable para esta estrategia que tome valores cercanos a cero. Por otra parte, es posible demostrar que el efecto de diseo, el cociente entre las varianzas, toma la siguiente expresin:
De esta manera, se tiene que el muestreo sistemtico ser: 1. Igual de eficiente al muestreo aleatorio simple si = (1 / 1N). 2. Menos eficiente que el muestreo aleatorio simple si > (1 / 1N). 3. Ms eficiente que el muestreo aleatorio simple s < (1 / 1N).
56
ANOVALucy
Con las sumas de cuadrados se demuestra que esta estrategia es ms eficiente que el muestreo aleatorio simple. Lo anterior sugiere que la utilizacin de la expresin de la varianza para un muestreo simple sin reemplazo como aproximacin de la varianza del muestreo sistemtico es una buena escogencia puesto que sobreestima la varianza verdadera. > > > > grupo <- as.factor(array(1:a,N)) data(Lucy) attach(Lucy) anova(lm(Income~grupo))
Response: Income Df Sum Sq Mean Sq F value Pr(>F) grupo 5 12359 2472 0.0346 0.9994 Residuals 2390 170698187 71422 > n <- dim(data)[1] > rho <- 1-(n/(n-1))*(170698187/(170698187+12359)) > rho [1] -0.002439984 > rho < 1/(1-N) [1] TRUE
57
La ganancia en eficiencia al usar este diseo es de casi veintinueve veces puesto que el efecto de diseo es aproximadamente 0.034. > Deff <- (N-1)*(1+(n-1)*rho)/(N-n) > Deff [1] 0.03464363 > 1/Deff [1] 28.86534 Por outro lado, la varianza del estimador HT para la caracterstica de inters Income es > VarHT <- N*12359 > VarHT [1] 29612164 Es mucho menor que el estimativo arrojado por la expresin del muestreo simple sin reemplazo.
58