Professional Documents
Culture Documents
3.1Anlisis
Factorial
de
Correspondencias:
Concepto
de
Correspondencias El anlisis de correspondencias es un mtodo multivariante factorial de reduccin de la dimensin de una tabla de casosvariables con datos cualitativos con el fin de obtener un nmero reducido de factores, cuya posterior interpretacin permitir un estudio ms simple del problema investigado. El trabajar con
107
variables cualitativas o variables cualitativas categorizadas confiere a esta prueba factorial una caracterstica diferencial: No se utilizan como datos de partida mediciones individuales, sino frecuencias de una tabla; es decir, nmero de individuos contenidos en cada casilla. El anlisis factorial es de aplicacin, incluso con slo dos caracteres o variables cualitativas ( anlisis de
correspondencia simple), cada una de las cuales puede presentar varias modalidades o categoras. El mtodo se generaliza cuando el nmero de variables o caracteres cualitativos es mayor de dos (anlisis de correspondencia mltiple).
variables
cualitativas a travs de la prueba de asociacin o independencia de la 2 da informacin sobre la relacin significativa o no entre ambas, sin aclarar qu categoras o modalidades estaban implicadas. En cambio, el anlisis de correspondencias extrae relaciones entre categoras y define similaridades o desimilaridades entre ellas, lo que permite su agrupamiento si detecta que se corresponden. Lo cual queda plasmado en un espacio dimensional de escasas variables sintticas o factores que pueden ser interpretados o nombrados y que, adems deben condensar el mximo posible de informacin.
108
Las dimensiones que definen el espacio en que se representan las categoras se obtienen como factores cuantitativos, por lo que el anlisis de correspondencias es un mtodo de extraccin de variables ficticias cuantitativas a partir de las variables cualitativas originales, al definir aqullas las relaciones entre las categoras de stas. Esto puede permitir la aplicacin posterior de otras pruebas multivariantes cuantitativas (regresin, clusters, ). Una posibilidad propia de este anlisis es la inclusin a posteriori de una nueva categora de alguna de las variables ( categora suplementaria) que, no habiendo participado en el clculo, interese representar para su comparacin con las originales. La abundancia y vistosidad de los resultados obtenidos hacen de esta prueba un fuente de hiptesis de trabajo para continuar la investigacin.
El carcter cualitativo de las variables tambin obliga a un proceso distinto. Si se trata de estudios de similaridad o
desimilaridad entre categoras, se cuantificar la diferencia o distancia entre ellas. En una tabla de frecuencias, cada categora
de una variable est formada por un conjunto de individuos distribuidos en cada una de las categoras de la otra variable. El
109
es utilizado en Estadstica para el clculo de desajuste de dos distribuciones, por medio de las diferencias (desajustes) cuadrticas (para evitar relacionar diferencias positivas con negativas) relativas (es menos clara una diferencia de dos individuos en 4% que un 2%). La suma de estas diferencias cuadrticas relativas entre las frecuencias de ambas distribuciones es el conocido concepto de la 2. As, el anlisis de correspondencia, puede considerarse como un anlisis de componentes principales aplicado a las variables cualitativas, que al no poder utilizar correlaciones, se basa en la distancia no eucldea de la 2 .
particularmente adaptado para tratar tablas de contingencia, representando los efectivos existentes es las mltiples modalidades (categoras) combinadas de dos caracteres (variables
cualitativas). Al cruzar en una tabla de contingencia el carcter I con modalidades i=1,,n (filas), con carcter J con modalidades j=i, ,p (columnas), se puede representar el nmero de unidades estadsticas que se pertenecen simultneamente a la modalidad i del carcter I y a la modalidad j del carcter J mediante kij. En este caso, la distincin entre observaciones y variables en el cuadro de doble
110
entrada e artificial, pero, por similitud con componentes principales, suele hablarse a veces de individuos u observaciones cuando nos referimos al conjunto de modalidades del carcter I (filas), y de variables cuando nos referimos al conjunto de modalidades del carcter J (columnas), tal como apreciamos en la siguiente tabla: J I 1 2 . . i . . n . . kij
. .
2 j p
Los objetivos del anlisis factorial de correspondencias son similares a los de componentes principales. Dichos objetivos son:
de modalidades I y el estudio de las relaciones existentes en el interior del conjunto de modalidades del carcter J.
111
La tabla de datos (kij) es una matriz K de orden (n,p) donde kij representa la frecuencia absoluta de asociaciones entre los elementos i y j; es decir, el nmero de veces que se presentan simultneamente las modalidades i y j de los caracteres I y J.
Kij=
i =1
K
j =1
ij
El mtodo buscado para el anlisis factorial de correspondencia simple deber ser simtrico con relacin a las lneas y columnas de K (para estudiar las relaciones en el interior de los conjuntos I y J) y deber permitir comparar las distribuciones de frecuencias de las dos caractersticas (para estudiar las relaciones entre los conjuntos I y J).
112
Para comparar dos lneas entre s (filas o columnas) en una tabla de contingencia, no interesan los valores brutos sino los porcentajes o distribuciones condicionadas. En una tabla de
contingencia, el anlisis buscado debe trabajar no con los valores brutos kij sino con perfiles o porcentajes. No interesa poner de
manifiesto las diferencias absolutas que existen entre dos lneas, sino que los elementos i,i (j,j) se consideran semejantes si presentan la misma distribucin condicionada.
3.1.2
perfiles
de
las
variables
i)
cuyas
coordenadas
son
k i1 k i. ,
ki2 k i. ,...,
k ip k i.
; i = 1,.., n
En Rn tomaremos la nube p puntos j (p filas de la tabla de perfiles de las variables j) cuyas coordenadas son
k1 j k. j ,
k2 j k. j ,...,
k nj k. j
; j = 1,.., p
113
Las transformaciones realizadas son idnticas en los espacios Rp y Rn, pero pueden llevar a transformaciones analticas diferentes. Los nuevos datos en R n no son la transpuesta de la matriz en Rp; lo cual conduce a realizar dos anlisis factoriales diferentes, uno en cada espacio. Pero existen relaciones entre los factores que permitirn reducir los clculos a una sola factorizacin facilitando adems la interpretacin.
Se
trabajar
con
la
tabla
de
contingencia
en
k ij k
con k=
i =1
k
j =1
ij
Tendremos el
p 1 2 . . i . . n
j . . fij/fi.
. .
114
fi.=
k i. k
f.j=
k. j k
k ij k i. ,
f ij f i.
k ij k. j ,
f ij f. j
El anlisis de correspondencias trabaja con perfiles, pero no olvida las diferencias entre los efectivos de cada lnea o columna, sino que les asigna un peso proporcional a su importancia en el total. En Rp cada punto i est afectado por un peso fi. y en Rn cada punto j est afectado por un peso f.j con lo que, de esta forma, se evita que al trabajar con perfiles se privilegie a las clases de efectivos pequeos.
3.1.3 Definicin de distancias. El hecho de trabajar con perfiles, en vez de con los valores absolutos iniciales no lleva a utilizar las distancias ji-cuadrado (distancia entre distribuciones) en lugar de la eucldea. Partiendo de la definicin de distancia Chi-Cuadrado en el anlisis de
correspondencias la distancia entre los individuos (punto fila) i e i en Rp vendr definida como:
115
d (i, i ' ) =
2
f
j =1
1
.j
fi' j f ij f f i '. i.
d ( j, j ' ) =
2
j =1
1 f ij fi ' j f i. f. j ' f. j
La nica diferencia entre esta distancia y la eucldea es la ponderacin, lo que evita que pequeas diferencias entre las componentes de las lneas influyan mucho en la distancia. El uso de la distancia Ji-Cuadrado estabiliza los datos, hasta el punto de que, por el principio de la equivalencia distribucional, dos lneas (filas o columnas) con el mismo perfil pueden ser sustituidas por una sola afectada por una masa igual a la suma de las masas, sin que se alteren las distancias entre los dems pares de puntos en R p o Rn.
3.2Concepto de Correspondencias mltiples. El anlisis de correspondencia mltiple, es un mtodo generalizable al caso de un nmero de variables o caracteres cualitativos mayor de dos; es decir, generalizable al anlisis de correspondencia simple.
116
Cuando el nmero de caracteres es mayor que dos (en lugar de tener los caracteres I, J, tenemos los caracteres J1, J2,, JQ) ya no se puede hablar de tabla de contingencia y la representacin tabulada de los datos se complica. No obstante, el anlisis en
correspondencias mltiples permite estudiar las relaciones entre las modalidades de todas las caractersticas cualitativas consideradas.
En el anlisis de correspondencias mltiples se ordenan los datos en una tabla Z denominada tabla disyuntiva completa que consta de un conjunto de individuos I=1,,i,,n (en filas), un conjunto de variables o caracteres cualitativos J 1, ,Jk,, JQ (en columnas) y un conjunto de modalidades excluyentes 1,,m k para cada carcter cualitativo. entonces: El nmero total de modalidades ser
J= m k
k =1
1ml
..
1mk
1mQ
117
1 . . I . . n
I
Z1
Zk
ZQ
Z=ZlZkZQ
El elemento zij de la tabla toma el valor 0 o 1 segn que el individuo i haya elegido (est afectado por) la modalidad j o no. Por consiguiente cada rectngulo de la tabla disyuntiva completada puede considerarse, aunque no lo sea, como una tabla de contingencia cuyos elementos son 0 o 1. La tabla disyuntiva
completa Z consta entonces de Q subtablas yuxtapuestas, con la finalidad de obtener una representacin simultnea de todas las modalidades (columnas) de todos los individuos (filas). Si las
modalidades son excluyentes, cada subtabla tiene un nico 1 en cada una de sus fialas.
118
Zij= kij = 0 1
3.2.1 Obtencin de los factores: Tabla de Burt. Para obtener los factores es necesario diagonalizar la matriz V=D-1B/Q donde B=ZZ es la tabla de Burtz, matriz simtrica formada por Q2 bloques, de modo que sus bloques de la diagonal Z kZk cuyos elementos son tablas diagonales que cruzan una variable con ella misma, siendo los elementos de la diagonal los efectivos de cada modalidad k.j. Los bloques fuera de la diagonal son tablas de
contingencia obtenidas cruzando las tablas de caractersticas de dos en dos ZkZk cuyos elementos son las frecuencias de asociacin de las dos modalidades correspondientes. La matriz D es una matriz diagonal cuyos elementos diagonales son los de la matriz de Burtz, siendo nulos el resto de los elementos. El aspecto de la tabla de Burt es el siguiente:
119
J1 J2 . . . JQ
J1 0 C21 . . . CQ1
JQ
Las
frmulas
de
transicin
que
permiten
representar
simultneamente los puntos lnea y los puntos columna sobre los mismos grficos relacionando as los resultados en los dos subespacios, tomarn ahora las siguientes expresiones:
1 f (i ) =
f
j =1
f ij G ( j ) = i.
k
j =1
ij
G ( j )
1 G (i ) =
f ij i =1 f . j
n
f (i ) =
k . j
k
i =1
ij
F (i )
Si tenemos en cuenta que k ij = 1 cuando el individuo i posee la modalidad j y cero cuando no, la proyeccin de un punto individuo i sobre el eje , F(i), es el baricentro (salvo un coeficiente de dilatacin 1/) de las proyecciones de los puntos modalidades sobre el eje G(j). Todas las modalidades estn
afectadas del mismo peso 1/Q. Anlogamente, la proyeccin de un punto modalidad j sobre el eje , G(j), es el baricentro (salvo un
120
coeficiente de dilatacin 1/) de las proyecciones de los puntos individuos que poseen esa modalidad sobre el eje F (i), todos ellos afectados del mismo peso k.j.
El centro de gravedad de la nube de puntos de cada variable N(j) en anlisis factorial de correspondencias (ACM) es fi ., que en este caso puede equipararse a una distribucin uniforme 1/n, ya que: Ki..= K ij = Q
j
K
i
i.
=nQ fi.=1/n
El centro de gravedad de las modalidades de cada variable, cada una ponderada por su peso, es el mismo que el de la nube de modalidades N(J), es decir, 1/n, ya que el centro de gravedad de la subtabla IxJ k se obtiene a partir de su distribucin marginal. Como slo recoge una variable, la suma de cada lnea es 1 y el total de la tabla es n, de dnde f i=1/n.
Como el anlisis factorial de correspondencia es centrado y en el centro de gravedad de las modalidades de una variable coincide con el conjunto J, y con el origen, las modalidades de cada
121
variable estn centradas en torno al origen, no pudiendo tener todas el mismo signo.
Al
igual
que
en
cualquier
Anlisis
Factorial
de
Correspondencias, se calculan las ayudas a la interpretacin para cada fila y columna, definiendo la contribucin de una variable J k al factor , como la suma de las contribuciones de las modalidades de la variable:
CTA(Jk)=
j Jk
CTA ( j )
La parte de inercia debida a una modalidad j es mayor cuanto menor sea el efectivo de esa modalidad. Si G representa el centro de gravedad, la inercia debida a la modalidad j viene dada por:
I(j)=f.jd2(G,j)=f.j
f ij i =1 f . j f i.
n
f i.
k ij / nQ = k 1 / n 1 / nQ i =1 .j k. j
n
1 k. j 1 Q n
122
Por lo tanto, es aconsejable eliminar las modalidades elegidas muy pocas veces, construyendo otra modalidad unindola a la ms prxima.
La parte de inercia debida a una variable es funcin creciente del nmero de la modalidades de respuesta que tiene, ya que la inercia de una variable es la suma de las inercias de sus modalidades:
I (J k ) =
j J k
I ( j) =
j J k
1 k. j 1 Q n
1 = ( m k 1) Q
Si una variable tiene un nmero de modalidades demasiado grande, al igual que en el caso de que su efectivo sea muy pequeo, conviene reagrupar las modalidades en un nmero que sea razonable y mantenga el sentido, para evitar as influencias extremas.
I =
jJk
I ( J k ) =
k
1 Q (m k 1) =
J Q 1
123
J/Q es el nmero medio de modalidades por variable cualitativa o carcter. En consecuencia, la inercia total slo
Si el nmero de variables es dos, y cada una tiene dos modalidades, los resultados se pueden analizar tanto por Anlisis Factorial de Correspondencias (AFC), como por Anlisis de Correspondencia Mltiple (ACM). En el primer caso obtendramos un nico factor que recoge el 100% de la inercia total. Esta inercia depender del grado de relacin que exista entre las modalidades, de modo que, si estn poco relacionadas, la inercia ser prxima a cero, y si estn muy relacionadas, la inercia tender a un valor alto.
Si la misma informacin la analizamos mediante anlisis de correspondencias mltiples, obtendremos siempre la misma inercia (J/Q-1=1), pero obtendremos dos ejes. En el caso en que exista mucha relacin entre las variables, el primer eje recoger gran parte de la inercia (casi 1) y el segundo muy poca, mientras que en el caso del total independencia entre las dos variables ambos factores recogern la misma cantidad de inercia, es decir cada uno.
124
3.3.1 Definiciones bsicas Universo Es el conjunto de unidades o elementos, claramente definido para el que se calculan las estimaciones. Los entes que constituyen el universo tienen caractersticas.
Variable aleatoria Una variable aleatoria X es una funcin, cuyo dominio es el espacio muestral (, ), cuyo espacio de llegada es un conjunto de nmeros reales X:R.
Poblacin La poblacin es una caracterstica medible X de un universo, se pueden definir tantas poblaciones como caractersticas medibles tenga un universo, bajo estas condiciones X es una variable aleatoria.
125
Marco Es un listado de unidades; en un sentido amplio, incluye toda la informacin que puede ser utilizada en los procesos de
probabilidad, es una muestra en la que cada elemento de la poblacin tiene una probabilidad conocida de seleccin.
eleccin de la unidad de muestreo ms eficiente es una consideracin importante dentro del diseo de una encuesta.
3.3.2 3.3.2.1
El muestreo aleatorio simple es un mtodo en el cual, todas las unidades de la poblacin tienen la misma probabilidad de ser seleccionadas de una poblacin de tamao N, para formar parte de
126
una muestra de tamao n. Este mtodo es tambin conocido como Muestreo Aleatorio simple con reposicin.
Para calcular el tamao de la muestra se debe considerar: cierta caracterstica medible e importante dentro de la poblacin, el grado de confianza y la precisin a estimar. Una vez fijado el error mximo admisible, que representa la precisin mnima a elegir de los resultados, y el coeficiente de seguridad o confianza, se necesita conocer adems la variabilidad de la poblacin, puesto que, cuanto ms dispersos estn los valores de las variables en el estudio, ms arriesgado ser obtener una muestra de tamao pequeo.
Sabiendo que el error muestral no es ms que el valor absoluto de la diferencia entre un estimador y su parmetro respectivo; tenemos:
e=| |
3.3.1
Dicho error nos permitir obtener el tamao de la muestra, para estimar la media poblacional a partir del Teorema del Lmite Central; de este modo nuestro = x , tenemos as:
e Z
/ 2
3.3.2
127
3.3.3
Reemplazando la desviacin estndar de la media muestral en trminos de la cuasivarianza poblacional en la ecuacin 3.3.3; tenemos:
e
2
= Z
/ 2
N n
2 x
s2 * n
= Z
/ 2
3.3.4
A partir de ello, obtenemos el tamao de la muestra, en funcin del error e, el tamao de la poblacin N y la cuasivarianza s 2 y con (1)100% de confianza. As:
NZ 2 / 2 s 2 n = Ne 2 + Z 2 / 2 s 2
NZ 2 / 2 s 2 n = e2 1 NZ 2 / 2 s 2 1+ * N e2
3.3.5
3.3.2.2 Muestreo Estratificado.En el muestreo estratificado, la poblacin de N unidades se dividen primero en subpoblaciones de N1, N2, N3, ..., NL, unidades,
128
respectivamente. Estas subpoblaciones, no se traslapan y en su conjunto comprenden a toda la poblacin, por lo tanto,
N1 + N2 + N3 + ... + NL = N
Para obtener
todo beneficio de la estratificacin, los valores de los Nh deben ser conocidos. muestra de Una vez determinados los estratos, se extraen una cada uno. Las extracciones deben hacerse
Los tamaos de
muestras dentro de los estratos se denotan con n1, n2, ..., nL, respectivamente.
Si se toma una muestra aleatoria simple en cada estrato, el procedimiento estratificado. total se describe como muestreo aleatorio
La estratificacin es una tcnica comn, y una de sus razones de aplicacin es cuando los datos deseados deben tener una precisin conocida en algunas en algunas subdivisiones de la poblacin, par lo que se aconseja tratar cada subdivisin como una poblacin por derecho propio.
129
La teora del muestreo estratificado se ocupa de las propiedades de las estimaciones de una muestra estratificada y de la mejor eleccin para los tamaos de muestras nh que deben dar la precisin mxima.
En la estratificacin se deben agrupar elementos con similares caractersticas a fin de que la varianza dentro de cada estrato sea pequea; al mismo tiempo es deseable que las medias de los distintos estratos sean lo ms diferentes posibles.
En el muestreo estratificado las probabilidades de seleccin de un grupo al otro pueden ser iguales o diferentes. No es necesario que todos los elementos tengan una misma probabilidad de seleccin aunque se debe conocer la probabilidad que corresponde a cada uno. Por lo general todos los elementos que forman parte de un estrato dado tienen probabilidades de seleccin iguales.
3.3.2.3 Notacin A continuacin se muestra la notacin empleada para el muestreo estratificado. El subndice h denota el estrato, e i la unidad
130
dentro del estrato. Todos los smbolos siguientes se refieren al estrato h. Nh nmero total de unidades
nh
yhi
Wh
Nh N
fh
nh Nh
Y =
y
i =1
Nh
hi
Nh
media verdadera
yh =
y
i =1
nh
hi
nh
media de la muestra
131
Sh =
(y
i =1
Nh
hi
Yh ) 2
varianza verdadera
Nh 1
3.3.2.4
La definicin del muestreo estratificado no especifica para la muestra en cada estrato un tamao determinado. Se puede
seleccionar la muestra de modo que en cada estrato tenga el mismo tamao o distribuir el tamao total en alguna otra forma. En tanto se seleccione al menos un elemento por estrato se satisface la especificacin de una muestra estratificada. A su vez, con dos
elementos por estrato, se puede estimar la media como su error. Por lo general el tamao total de la muestra es mucho mayor que dos elementos por estrato. Por lo tanto surge la necesidad de
Para determinar la distribucin de la muestra entre los distintos estratos, existen dos criterios principales. El primero es la
conveniencia, es decir, elegir un procedimiento que sea fcil de aplicar y simple para tabular. Este criterio nos conduce, por lo El segundo criterio es la
132
exactitud: elegir un procedimiento que proporcione el error estndar ms pequeo. Esto nos lleva al uso de la afijacin ptima.
3.3.2.5 Muestreo Estratificado Proporcional En el muestreo estratificado es muy comn seleccionar en cada estrato la misma proporcin de elementos. Segn este
procedimiento, para seleccionar el diez por ciento de una cierta poblacin, tomaramos una muestra del diez por ciento de cada estrato.
En este caso, dado que las tasas de muestreo son iguales en todos los estratos, el nmero de elementos tomados en cada estrato para la muestra, variar de un estrato a otro dependiendo del tamao de los estratos.
Dentro de cada estrato el tamao de la muestra ser proporcional a la poblacin total del estrato. De ello obtenemos:
ni =
Ni N * n
3.3.6
133
N n e 2 = Z 2 / 2 N 1 *
PQ n
De ello:
N n = N 1 *
Z 2 / 2 PQ e2 1+ 1 N 1 * Z 2 / 2 PQ e2
3.3.7
As:
Z 2 / 2 PQ n0 = e2
3.3.8
N n = n0 n0 n 1 n0 n0 1+ 1+ N 1 N
3.3.9
Z/2 : p:
134
e: N: pxq:
Tratndose de las caractersticas de la poblacin en las que se est interesado (es decir, X y X ), se puede preparar estimaciones con una muestra estratificada proporcional tan fcil como en una muestra simple al azar con la misma frmula:
1 x' = n
x
j =1
3.3.10
La suma se refiere a todos los elementos muestrales sin considerar los estratos. Se tiene adems:
N x' = Nx ' = n
x
j =1
3.3.11
El procedimiento de ponderacin simple, hace que el muestreo proporcional sea muy conveniente dada que los resultados son fciles de tabular. No es necesario tabular cada estrato
135
los datos muestrales y luego aplicar un cierto factor que podra ser
1 n N n
Se
dice
que
una
muestra
con
esta
caracterstica
est
autoponderada.
3.3.2.6
Afijacin ptima
El muestreo estratificado con afijacin ptima, consiste en dejar que la tasa de muestreo en cada estrato cambiara con la cantidad de variabilidad de cada estrato, es decir; hacer la tasa de muestreo en un estrato dado, proporcional a la desviacin estndar es dicho estrato. De esta forma, el nmero de elementos a extraer para la muestra en cada estrato, depender slo del nmero total de elementos a extraerse de los mismos, sino tambin de la desviacin estndar de la caracterstica que se va a medir. Para esta afijacin ptima, el nmero de elementos que se selecciona en un estrato est dado por la frmula:
ni = n
N i i
N
i
3.3.12
i
136
x' =
N
i
N
i
2 i
N2
3.3.13
Para aplicar este tipo de afijacin es necesario conocer los valores de i en el universo. Si no se conocen, se pueden estimar
dentro de cada estrato usando i = s = P * Q .