You are on page 1of 31

CAPITULO 3

3. ANLISIS MULTIVARIANTE: ANLISIS DE DATOS CATEGRICOS Y CUANTITATIVOS.

3.1Anlisis

Factorial

de

Correspondencias:

Concepto

de

Correspondencias El anlisis de correspondencias es un mtodo multivariante factorial de reduccin de la dimensin de una tabla de casosvariables con datos cualitativos con el fin de obtener un nmero reducido de factores, cuya posterior interpretacin permitir un estudio ms simple del problema investigado. El trabajar con

107

variables cualitativas o variables cualitativas categorizadas confiere a esta prueba factorial una caracterstica diferencial: No se utilizan como datos de partida mediciones individuales, sino frecuencias de una tabla; es decir, nmero de individuos contenidos en cada casilla. El anlisis factorial es de aplicacin, incluso con slo dos caracteres o variables cualitativas ( anlisis de

correspondencia simple), cada una de las cuales puede presentar varias modalidades o categoras. El mtodo se generaliza cuando el nmero de variables o caracteres cualitativos es mayor de dos (anlisis de correspondencia mltiple).

El tratamiento conjunto de dos caracteres o

variables

cualitativas a travs de la prueba de asociacin o independencia de la 2 da informacin sobre la relacin significativa o no entre ambas, sin aclarar qu categoras o modalidades estaban implicadas. En cambio, el anlisis de correspondencias extrae relaciones entre categoras y define similaridades o desimilaridades entre ellas, lo que permite su agrupamiento si detecta que se corresponden. Lo cual queda plasmado en un espacio dimensional de escasas variables sintticas o factores que pueden ser interpretados o nombrados y que, adems deben condensar el mximo posible de informacin.

108

Las dimensiones que definen el espacio en que se representan las categoras se obtienen como factores cuantitativos, por lo que el anlisis de correspondencias es un mtodo de extraccin de variables ficticias cuantitativas a partir de las variables cualitativas originales, al definir aqullas las relaciones entre las categoras de stas. Esto puede permitir la aplicacin posterior de otras pruebas multivariantes cuantitativas (regresin, clusters, ). Una posibilidad propia de este anlisis es la inclusin a posteriori de una nueva categora de alguna de las variables ( categora suplementaria) que, no habiendo participado en el clculo, interese representar para su comparacin con las originales. La abundancia y vistosidad de los resultados obtenidos hacen de esta prueba un fuente de hiptesis de trabajo para continuar la investigacin.

El carcter cualitativo de las variables tambin obliga a un proceso distinto. Si se trata de estudios de similaridad o

desimilaridad entre categoras, se cuantificar la diferencia o distancia entre ellas. En una tabla de frecuencias, cada categora

de una variable est formada por un conjunto de individuos distribuidos en cada una de las categoras de la otra variable. El

proceso para hallar la distancia entre dos categoras de una variable,

109

es utilizado en Estadstica para el clculo de desajuste de dos distribuciones, por medio de las diferencias (desajustes) cuadrticas (para evitar relacionar diferencias positivas con negativas) relativas (es menos clara una diferencia de dos individuos en 4% que un 2%). La suma de estas diferencias cuadrticas relativas entre las frecuencias de ambas distribuciones es el conocido concepto de la 2. As, el anlisis de correspondencia, puede considerarse como un anlisis de componentes principales aplicado a las variables cualitativas, que al no poder utilizar correlaciones, se basa en la distancia no eucldea de la 2 .

3.1.1 Anlisis de Correspondencias Simples. El anlisis factorial de correspondencias simples est

particularmente adaptado para tratar tablas de contingencia, representando los efectivos existentes es las mltiples modalidades (categoras) combinadas de dos caracteres (variables

cualitativas). Al cruzar en una tabla de contingencia el carcter I con modalidades i=1,,n (filas), con carcter J con modalidades j=i, ,p (columnas), se puede representar el nmero de unidades estadsticas que se pertenecen simultneamente a la modalidad i del carcter I y a la modalidad j del carcter J mediante kij. En este caso, la distincin entre observaciones y variables en el cuadro de doble

110

entrada e artificial, pero, por similitud con componentes principales, suele hablarse a veces de individuos u observaciones cuando nos referimos al conjunto de modalidades del carcter I (filas), y de variables cuando nos referimos al conjunto de modalidades del carcter J (columnas), tal como apreciamos en la siguiente tabla: J I 1 2 . . i . . n . . kij
. .

2 j p

Los objetivos del anlisis factorial de correspondencias son similares a los de componentes principales. Dichos objetivos son:

El estudio de las relaciones existentes en el interior del conjunto

de modalidades I y el estudio de las relaciones existentes en el interior del conjunto de modalidades del carcter J.

El estudio de las relaciones existentes entre las modalidades

del carcter I y las modalidades del carcter J.

111

La tabla de datos (kij) es una matriz K de orden (n,p) donde kij representa la frecuencia absoluta de asociaciones entre los elementos i y j; es decir, el nmero de veces que se presentan simultneamente las modalidades i y j de los caracteres I y J.

Designamos: Ki.= K ij = efectivo total de la fila i


j =1 p

K.j= K ij = efectivo total de la columna j


j =1

Kij=
i =1

K
j =1

ij

= efectivo total de poblacin

El mtodo buscado para el anlisis factorial de correspondencia simple deber ser simtrico con relacin a las lneas y columnas de K (para estudiar las relaciones en el interior de los conjuntos I y J) y deber permitir comparar las distribuciones de frecuencias de las dos caractersticas (para estudiar las relaciones entre los conjuntos I y J).

112

Para comparar dos lneas entre s (filas o columnas) en una tabla de contingencia, no interesan los valores brutos sino los porcentajes o distribuciones condicionadas. En una tabla de

contingencia, el anlisis buscado debe trabajar no con los valores brutos kij sino con perfiles o porcentajes. No interesa poner de

manifiesto las diferencias absolutas que existen entre dos lneas, sino que los elementos i,i (j,j) se consideran semejantes si presentan la misma distribucin condicionada.

3.1.2

Formacin de las nubes En Rp tomaremos la nube n puntos i (n filas de la tabla de

perfiles

de

las

variables

i)

cuyas

coordenadas

son

k i1 k i. ,

ki2 k i. ,...,

k ip k i.

; i = 1,.., n

En Rn tomaremos la nube p puntos j (p filas de la tabla de perfiles de las variables j) cuyas coordenadas son

k1 j k. j ,

k2 j k. j ,...,

k nj k. j

; j = 1,.., p

113

Las transformaciones realizadas son idnticas en los espacios Rp y Rn, pero pueden llevar a transformaciones analticas diferentes. Los nuevos datos en R n no son la transpuesta de la matriz en Rp; lo cual conduce a realizar dos anlisis factoriales diferentes, uno en cada espacio. Pero existen relaciones entre los factores que permitirn reducir los clculos a una sola factorizacin facilitando adems la interpretacin.

Se

trabajar

con

la

tabla

de

contingencia

en

frecuencias relativas fij= esquema:

k ij k

con k=
i =1

k
j =1

ij

Tendremos el

Perfil de las lneas en Rp


1 1 2 . . i . . n 2 j . . kij
. .

p 1 2 . . i . . n

j . . fij/fi.
. .

Perfil de las lneas en Rn


1 1 2 . . i . . 2 j . . fij/f.j
. .

114

fi.=

k i. k

f.j=

k. j k

k ij k i. ,

f ij f i.

k ij k. j ,

f ij f. j

El anlisis de correspondencias trabaja con perfiles, pero no olvida las diferencias entre los efectivos de cada lnea o columna, sino que les asigna un peso proporcional a su importancia en el total. En Rp cada punto i est afectado por un peso fi. y en Rn cada punto j est afectado por un peso f.j con lo que, de esta forma, se evita que al trabajar con perfiles se privilegie a las clases de efectivos pequeos.

3.1.3 Definicin de distancias. El hecho de trabajar con perfiles, en vez de con los valores absolutos iniciales no lleva a utilizar las distancias ji-cuadrado (distancia entre distribuciones) en lugar de la eucldea. Partiendo de la definicin de distancia Chi-Cuadrado en el anlisis de

correspondencias la distancia entre los individuos (punto fila) i e i en Rp vendr definida como:

115

d (i, i ' ) =
2

f
j =1

1
.j

fi' j f ij f f i '. i.

d ( j, j ' ) =
2

j =1

1 f ij fi ' j f i. f. j ' f. j

La nica diferencia entre esta distancia y la eucldea es la ponderacin, lo que evita que pequeas diferencias entre las componentes de las lneas influyan mucho en la distancia. El uso de la distancia Ji-Cuadrado estabiliza los datos, hasta el punto de que, por el principio de la equivalencia distribucional, dos lneas (filas o columnas) con el mismo perfil pueden ser sustituidas por una sola afectada por una masa igual a la suma de las masas, sin que se alteren las distancias entre los dems pares de puntos en R p o Rn.

3.2Concepto de Correspondencias mltiples. El anlisis de correspondencia mltiple, es un mtodo generalizable al caso de un nmero de variables o caracteres cualitativos mayor de dos; es decir, generalizable al anlisis de correspondencia simple.

116

Cuando el nmero de caracteres es mayor que dos (en lugar de tener los caracteres I, J, tenemos los caracteres J1, J2,, JQ) ya no se puede hablar de tabla de contingencia y la representacin tabulada de los datos se complica. No obstante, el anlisis en

correspondencias mltiples permite estudiar las relaciones entre las modalidades de todas las caractersticas cualitativas consideradas.

En el anlisis de correspondencias mltiples se ordenan los datos en una tabla Z denominada tabla disyuntiva completa que consta de un conjunto de individuos I=1,,i,,n (en filas), un conjunto de variables o caracteres cualitativos J 1, ,Jk,, JQ (en columnas) y un conjunto de modalidades excluyentes 1,,m k para cada carcter cualitativo. entonces: El nmero total de modalidades ser

J= m k
k =1

La tabla disyuntiva completa Z de dimensiones IxJ tiene el siguiente aspecto:


J
Jl Jk JQ

1ml

..

1mk

1mQ

117

1 . . I . . n
I

Z1

Zk

ZQ

Z=ZlZkZQ

El elemento zij de la tabla toma el valor 0 o 1 segn que el individuo i haya elegido (est afectado por) la modalidad j o no. Por consiguiente cada rectngulo de la tabla disyuntiva completada puede considerarse, aunque no lo sea, como una tabla de contingencia cuyos elementos son 0 o 1. La tabla disyuntiva

completa Z consta entonces de Q subtablas yuxtapuestas, con la finalidad de obtener una representacin simultnea de todas las modalidades (columnas) de todos los individuos (filas). Si las

modalidades son excluyentes, cada subtabla tiene un nico 1 en cada una de sus fialas.

Si conservamos la notacin que hemos manejado hasta ahora tenemos que:

118

Zij= kij = 0 1

Ki..= K ij = Q = nmero de modalidades (cada subtabla tiene un


j

nico 1 en cada fila. K.j= K ij = nmero de individuos que poseen modalidad j


i

fij/fi.=kij/kj.=1/Q= inverso del nmero de modalidades (0 si el individuo no elige j

3.2.1 Obtencin de los factores: Tabla de Burt. Para obtener los factores es necesario diagonalizar la matriz V=D-1B/Q donde B=ZZ es la tabla de Burtz, matriz simtrica formada por Q2 bloques, de modo que sus bloques de la diagonal Z kZk cuyos elementos son tablas diagonales que cruzan una variable con ella misma, siendo los elementos de la diagonal los efectivos de cada modalidad k.j. Los bloques fuera de la diagonal son tablas de

contingencia obtenidas cruzando las tablas de caractersticas de dos en dos ZkZk cuyos elementos son las frecuencias de asociacin de las dos modalidades correspondientes. La matriz D es una matriz diagonal cuyos elementos diagonales son los de la matriz de Burtz, siendo nulos el resto de los elementos. El aspecto de la tabla de Burt es el siguiente:

119

J1 J2 . . . JQ

J1 0 C21 . . . CQ1

J2 C12 0 . . . CQ2 ... ... . . . ...

... C1Q C2Q . . . 0

JQ

Las

frmulas

de

transicin

que

permiten

representar

simultneamente los puntos lnea y los puntos columna sobre los mismos grficos relacionando as los resultados en los dos subespacios, tomarn ahora las siguientes expresiones:

1 f (i ) =

f
j =1

f ij G ( j ) = i.

k
j =1

ij

G ( j )

1 G (i ) =

f ij i =1 f . j
n

f (i ) =

k . j

k
i =1

ij

F (i )

Si tenemos en cuenta que k ij = 1 cuando el individuo i posee la modalidad j y cero cuando no, la proyeccin de un punto individuo i sobre el eje , F(i), es el baricentro (salvo un coeficiente de dilatacin 1/) de las proyecciones de los puntos modalidades sobre el eje G(j). Todas las modalidades estn

afectadas del mismo peso 1/Q. Anlogamente, la proyeccin de un punto modalidad j sobre el eje , G(j), es el baricentro (salvo un

120

coeficiente de dilatacin 1/) de las proyecciones de los puntos individuos que poseen esa modalidad sobre el eje F (i), todos ellos afectados del mismo peso k.j.

El centro de gravedad de la nube de puntos de cada variable N(j) en anlisis factorial de correspondencias (ACM) es fi ., que en este caso puede equipararse a una distribucin uniforme 1/n, ya que: Ki..= K ij = Q
j

K
i

i.

=nQ fi.=1/n

El centro de gravedad de las modalidades de cada variable, cada una ponderada por su peso, es el mismo que el de la nube de modalidades N(J), es decir, 1/n, ya que el centro de gravedad de la subtabla IxJ k se obtiene a partir de su distribucin marginal. Como slo recoge una variable, la suma de cada lnea es 1 y el total de la tabla es n, de dnde f i=1/n.

Como el anlisis factorial de correspondencia es centrado y en el centro de gravedad de las modalidades de una variable coincide con el conjunto J, y con el origen, las modalidades de cada

121

variable estn centradas en torno al origen, no pudiendo tener todas el mismo signo.

Al

igual

que

en

cualquier

Anlisis

Factorial

de

Correspondencias, se calculan las ayudas a la interpretacin para cada fila y columna, definiendo la contribucin de una variable J k al factor , como la suma de las contribuciones de las modalidades de la variable:

CTA(Jk)=

j Jk

CTA ( j )

La parte de inercia debida a una modalidad j es mayor cuanto menor sea el efectivo de esa modalidad. Si G representa el centro de gravedad, la inercia debida a la modalidad j viene dada por:

I(j)=f.jd2(G,j)=f.j

f ij i =1 f . j f i.
n

f i.

k ij / nQ = k 1 / n 1 / nQ i =1 .j k. j
n

1 k. j 1 Q n

122

Por lo tanto, es aconsejable eliminar las modalidades elegidas muy pocas veces, construyendo otra modalidad unindola a la ms prxima.

La parte de inercia debida a una variable es funcin creciente del nmero de la modalidades de respuesta que tiene, ya que la inercia de una variable es la suma de las inercias de sus modalidades:

I (J k ) =

j J k

I ( j) =
j J k

1 k. j 1 Q n

1 = ( m k 1) Q

Si una variable tiene un nmero de modalidades demasiado grande, al igual que en el caso de que su efectivo sea muy pequeo, conviene reagrupar las modalidades en un nmero que sea razonable y mantenga el sentido, para evitar as influencias extremas.

La inercia total es la suma de las inercias de todas las modalidades:

I =

jJk

I ( J k ) =
k

1 Q (m k 1) =

J Q 1

123

J/Q es el nmero medio de modalidades por variable cualitativa o carcter. En consecuencia, la inercia total slo

depende del nmero de modalidades y del de preguntas.

Si el nmero de variables es dos, y cada una tiene dos modalidades, los resultados se pueden analizar tanto por Anlisis Factorial de Correspondencias (AFC), como por Anlisis de Correspondencia Mltiple (ACM). En el primer caso obtendramos un nico factor que recoge el 100% de la inercia total. Esta inercia depender del grado de relacin que exista entre las modalidades, de modo que, si estn poco relacionadas, la inercia ser prxima a cero, y si estn muy relacionadas, la inercia tender a un valor alto.

Si la misma informacin la analizamos mediante anlisis de correspondencias mltiples, obtendremos siempre la misma inercia (J/Q-1=1), pero obtendremos dos ejes. En el caso en que exista mucha relacin entre las variables, el primer eje recoger gran parte de la inercia (casi 1) y el segundo muy poca, mientras que en el caso del total independencia entre las dos variables ambos factores recogern la misma cantidad de inercia, es decir cada uno.

124

3.3Teora del Muestreo

3.3.1 Definiciones bsicas Universo Es el conjunto de unidades o elementos, claramente definido para el que se calculan las estimaciones. Los entes que constituyen el universo tienen caractersticas.

Variable aleatoria Una variable aleatoria X es una funcin, cuyo dominio es el espacio muestral (, ), cuyo espacio de llegada es un conjunto de nmeros reales X:R.

Poblacin La poblacin es una caracterstica medible X de un universo, se pueden definir tantas poblaciones como caractersticas medibles tenga un universo, bajo estas condiciones X es una variable aleatoria.

Poblacin Marco Es el conjunto de unidades a partir del cual se selecciona la muestra.

125

Marco Es un listado de unidades; en un sentido amplio, incluye toda la informacin que puede ser utilizada en los procesos de

estratificacin, seleccin y estimacin.

Muestra Es un subconjunto de una poblacin. Una muestra de

probabilidad, es una muestra en la que cada elemento de la poblacin tiene una probabilidad conocida de seleccin.

Unidad de muestreo Son las unidades que se seleccionan de una muestra. La

eleccin de la unidad de muestreo ms eficiente es una consideracin importante dentro del diseo de una encuesta.

3.3.2 3.3.2.1

Tipos de Muestreo empleado en el estudio Muestreo Aleatorio Simple

El muestreo aleatorio simple es un mtodo en el cual, todas las unidades de la poblacin tienen la misma probabilidad de ser seleccionadas de una poblacin de tamao N, para formar parte de

126

una muestra de tamao n. Este mtodo es tambin conocido como Muestreo Aleatorio simple con reposicin.

Para calcular el tamao de la muestra se debe considerar: cierta caracterstica medible e importante dentro de la poblacin, el grado de confianza y la precisin a estimar. Una vez fijado el error mximo admisible, que representa la precisin mnima a elegir de los resultados, y el coeficiente de seguridad o confianza, se necesita conocer adems la variabilidad de la poblacin, puesto que, cuanto ms dispersos estn los valores de las variables en el estudio, ms arriesgado ser obtener una muestra de tamao pequeo.

Sabiendo que el error muestral no es ms que el valor absoluto de la diferencia entre un estimador y su parmetro respectivo; tenemos:

e=| |

3.3.1

Dicho error nos permitir obtener el tamao de la muestra, para estimar la media poblacional a partir del Teorema del Lmite Central; de este modo nuestro = x , tenemos as:

e Z

/ 2

3.3.2

127

Reemplazando 3.3.1 en 3.3.2, tenemos:


| x | Z / 2 x

3.3.3

Reemplazando la desviacin estndar de la media muestral en trminos de la cuasivarianza poblacional en la ecuacin 3.3.3; tenemos:
e
2

= Z

/ 2

N n
2 x

s2 * n

= Z

/ 2

3.3.4

A partir de ello, obtenemos el tamao de la muestra, en funcin del error e, el tamao de la poblacin N y la cuasivarianza s 2 y con (1)100% de confianza. As:
NZ 2 / 2 s 2 n = Ne 2 + Z 2 / 2 s 2

NZ 2 / 2 s 2 n = e2 1 NZ 2 / 2 s 2 1+ * N e2

3.3.5

3.3.2.2 Muestreo Estratificado.En el muestreo estratificado, la poblacin de N unidades se dividen primero en subpoblaciones de N1, N2, N3, ..., NL, unidades,

128

respectivamente. Estas subpoblaciones, no se traslapan y en su conjunto comprenden a toda la poblacin, por lo tanto,

N1 + N2 + N3 + ... + NL = N

Las subpoblaciones se denominan estratos.

Para obtener

todo beneficio de la estratificacin, los valores de los Nh deben ser conocidos. muestra de Una vez determinados los estratos, se extraen una cada uno. Las extracciones deben hacerse

independientemente en los diferentes estratos.

Los tamaos de

muestras dentro de los estratos se denotan con n1, n2, ..., nL, respectivamente.

Si se toma una muestra aleatoria simple en cada estrato, el procedimiento estratificado. total se describe como muestreo aleatorio

La estratificacin es una tcnica comn, y una de sus razones de aplicacin es cuando los datos deseados deben tener una precisin conocida en algunas en algunas subdivisiones de la poblacin, par lo que se aconseja tratar cada subdivisin como una poblacin por derecho propio.

129

La teora del muestreo estratificado se ocupa de las propiedades de las estimaciones de una muestra estratificada y de la mejor eleccin para los tamaos de muestras nh que deben dar la precisin mxima.

En la estratificacin se deben agrupar elementos con similares caractersticas a fin de que la varianza dentro de cada estrato sea pequea; al mismo tiempo es deseable que las medias de los distintos estratos sean lo ms diferentes posibles.

En el muestreo estratificado las probabilidades de seleccin de un grupo al otro pueden ser iguales o diferentes. No es necesario que todos los elementos tengan una misma probabilidad de seleccin aunque se debe conocer la probabilidad que corresponde a cada uno. Por lo general todos los elementos que forman parte de un estrato dado tienen probabilidades de seleccin iguales.

3.3.2.3 Notacin A continuacin se muestra la notacin empleada para el muestreo estratificado. El subndice h denota el estrato, e i la unidad

130

dentro del estrato. Todos los smbolos siguientes se refieren al estrato h. Nh nmero total de unidades

nh

nmero de unidades en la muestra

yhi

valor obtenido para la i-sima unidad

Wh

Nh N

ponderacin del estrato

fh

nh Nh

fraccin de muestreo en el estrato

Y =

y
i =1

Nh

hi

Nh

media verdadera

yh =

y
i =1

nh

hi

nh

media de la muestra

131

Sh =

(y
i =1

Nh

hi

Yh ) 2
varianza verdadera

Nh 1

3.3.2.4

Afijacin en los estratos

La definicin del muestreo estratificado no especifica para la muestra en cada estrato un tamao determinado. Se puede

seleccionar la muestra de modo que en cada estrato tenga el mismo tamao o distribuir el tamao total en alguna otra forma. En tanto se seleccione al menos un elemento por estrato se satisface la especificacin de una muestra estratificada. A su vez, con dos

elementos por estrato, se puede estimar la media como su error. Por lo general el tamao total de la muestra es mucho mayor que dos elementos por estrato. Por lo tanto surge la necesidad de

establecer un criterio para afijar el tamao total de la muestra en los estratos.

Para determinar la distribucin de la muestra entre los distintos estratos, existen dos criterios principales. El primero es la

conveniencia, es decir, elegir un procedimiento que sea fcil de aplicar y simple para tabular. Este criterio nos conduce, por lo El segundo criterio es la

general, al muestreo proporcional.

132

exactitud: elegir un procedimiento que proporcione el error estndar ms pequeo. Esto nos lleva al uso de la afijacin ptima.

3.3.2.5 Muestreo Estratificado Proporcional En el muestreo estratificado es muy comn seleccionar en cada estrato la misma proporcin de elementos. Segn este

procedimiento, para seleccionar el diez por ciento de una cierta poblacin, tomaramos una muestra del diez por ciento de cada estrato.

En este caso, dado que las tasas de muestreo son iguales en todos los estratos, el nmero de elementos tomados en cada estrato para la muestra, variar de un estrato a otro dependiendo del tamao de los estratos.

Dentro de cada estrato el tamao de la muestra ser proporcional a la poblacin total del estrato. De ello obtenemos:

ni =

Ni N * n

3.3.6

De dnde n se calcula a partir de:

133

N n e 2 = Z 2 / 2 N 1 *

PQ n

De ello:

N n = N 1 *

Z 2 / 2 PQ e2 1+ 1 N 1 * Z 2 / 2 PQ e2

3.3.7

As:

Z 2 / 2 PQ n0 = e2

3.3.8

Para una poblacin infinita sera:

N n = n0 n0 n 1 n0 n0 1+ 1+ N 1 N

3.3.9

Z/2 : p:

Es el nivel de confianza seleccionado es la proporcin de una categora de la variable

134

e: N: pxq:

es el error de diseo es el tamao de la poblacin es el estimador de la varianza poblacional

Tratndose de las caractersticas de la poblacin en las que se est interesado (es decir, X y X ), se puede preparar estimaciones con una muestra estratificada proporcional tan fcil como en una muestra simple al azar con la misma frmula:

1 x' = n

x
j =1

3.3.10

La suma se refiere a todos los elementos muestrales sin considerar los estratos. Se tiene adems:

N x' = Nx ' = n

x
j =1

3.3.11

El procedimiento de ponderacin simple, hace que el muestreo proporcional sea muy conveniente dada que los resultados son fciles de tabular. No es necesario tabular cada estrato

separadamente, sino que, se pueden sumar en forma conjunta todos

135

los datos muestrales y luego aplicar un cierto factor que podra ser
1 n N n

Se

dice

que

una

muestra

con

esta

caracterstica

est

autoponderada.

3.3.2.6

Afijacin ptima

El muestreo estratificado con afijacin ptima, consiste en dejar que la tasa de muestreo en cada estrato cambiara con la cantidad de variabilidad de cada estrato, es decir; hacer la tasa de muestreo en un estrato dado, proporcional a la desviacin estndar es dicho estrato. De esta forma, el nmero de elementos a extraer para la muestra en cada estrato, depender slo del nmero total de elementos a extraerse de los mismos, sino tambin de la desviacin estndar de la caracterstica que se va a medir. Para esta afijacin ptima, el nmero de elementos que se selecciona en un estrato est dado por la frmula:

ni = n

N i i

N
i

3.3.12
i

136

Con una afijacin ptima el error estndar de la media se reduce a:

x' =

N
i

N
i

2 i

N2

3.3.13

Para aplicar este tipo de afijacin es necesario conocer los valores de i en el universo. Si no se conocen, se pueden estimar
dentro de cada estrato usando i = s = P * Q .

You might also like