You are on page 1of 18

InnOvaciOnes de NegOciOs 4(2): 405 - 422, 2007

2007 UANL, Impreso en Mxico (ISSN 1665-9627)

Anlisis de correlacin cannica (ACC) e investigacin


cientfica
(Canonical correlation analysis and scientific research)
Badii, M.H., J. Castillo, K. Cortez, A. Wong & P. Villalpando
UANL, San Nicols, N.L., Mxico, mhbadii@yahoo.com.mx

Key words: ACC, multivariate statistics, scientific application

Abstract. The concept of Analysis of Canonical Correlation (ACC) is given. The basic
conditions, initial questions, and main objectives are provided. The fundamentals of ACC
design and the adjustments are touched upon. Field application of ACC is highlighted. The
intricacies involving the profiling, validation, and redundant variables of the method are
discussed. Finally, the statistical significance and theoretical interpretation of the model are
explained.

Palabras claves: ACC, aplicacin cientfica, estadstica multivariable

Resumen. Se presenta el concepto de Anlisis de Correlacin Cannica (ACC). Se discutan


los supuestos, fundamentales, preguntas iniciales y objetivos principales de ste mtodo. Se
manejan las bases del diseo, las funciones y los ajustes del mtodo. Se presentan las
nociones del estudio de campo y la aplicacin del mtodo. Se notan asuntos relacionados
con el diagnstico y la validacin de ACC cubriendo el concepto de las variables
redundantes. Finalmente, se explican la significancia estadstica del modelo y la forma de
interpretacin terica y la visualizacin del mismo.

Introduccin

Hasta hace pocos aos, el anlisis de correlacin cannica era una


tcnica estadstica relativamente desconocida (Badii et al., 2004, Badii et al.,
2006, Badii & castillo, 2007, Badii et al., 2007a, Badii et al., 2007b). La
disponibilidad de programas de computadora ha facilitado el aumento de su
utilizacin en problemas de investigacin. Es particularmente til en
situaciones donde se tienen mltiples variables dependientes como
satisfaccin, compra o volumen de ventas. Si las variables predictoras fueran

Correlacin cannica
406

exclusivamente categricas, se podra emplear el anlisis multivariante de la


varianza. Pero, qu ocurre si las varianzas predictoras son mtricas? La
correlacin cannica es la respuesta, ya que permite la valoracin de la
relacin entre variables predictoras mtrica y mltiples medidas
dependientes. La correlacin cannica es considerada como el modelo
general en que se basan otras tcnicas multivariantes, dado que se pueden
emplear tanto datos mtricos como no mtricos para variables dependientes
como independientes. Expresamos la forma general del anlisis cannico
como:
Y1 + Y2 + Y3 + + Yn = X1 + X2 + X3 ++ Xn

En este captulo se discuten estos problemas y algunas soluciones a


ellos. Se ilustran los problemas y sus soluciones basadas en la experiencia
de utilizar correlacin cannica en el anlisis de estudio de campo de las
interacciones automticas de la tripulacin de la aviacin comercial.
Empezamos con una breve descripcin de anlisis de correlacin cannica
(ACC), seguida de la descripcin del estudio de campo y de los datos que se
analizarn. Se describen cinco problemas especficos que se encontraron
durante el anlisis, y las soluciones propuestas a cada problema. Se
concluye con una afirmacin de la utilidad del ACC en el contexto del
espectro de mtodos analticos para datos complejos del mundo real.

El concepto

El anlisis de correlacin cannica es un tipo de anlisis estadstico


linear de mltiples variables, descrito inicialmente por Hotelling (1935).
Actualmente se usa en qumica, biologa, meteorologa, demografa,
inteligencia artificial, ciencias del conocimiento, ciencias polticas, sociologa,
psicometra, investigaciones de educacin y ciencias de administracin para
analizar relaciones multidimensionales entre mltiples variables
independientes y mltiples variables dependientes.
Aunque el ACC esta documentado en libros de texto, y se encuentra
en paquetes computacionales, existen ciertos problemas tcnicos y de
interpretacin que impiden su uso rutinario por los investigadores. Se
incluyen problemas de computacin (singularidad de las matrices, tiempo de
computadora), interpretacin (visualizacin, examen de casos individuales), y

M.H. Badii et al.


407

significancia estadstica (niveles de significancia e intervalos de confianza


para datos multidimensionales no-normales, incluyendo variables discretas).

La aplicacin del mtodo

El anlisis de correlacin cannica es el mtodo ms generalizado de


la familia de las tcnicas estadsticas multivariante. Se relaciona directamente
con varios mtodos de dependencia. Al igual que en la regresin, el objetivo
de la correlacin cannica es cuantificar la validez de la relacin, en este
caso entre los dos conjuntos de variables (dependiente e independiente). Se
asemeja al anlisis factorial en la creacin de compuestos de variables.
Tambin se parece al anlisis discriminante en su capacidad para
determinar las dimensiones independientes para cada conjunto de variables
que produce la correlacin mxima entre las dimensiones. De esta manera,
la correlacin cannica identifica la estructura ptima o la dimensionalidad de
cada conjunto de variables, que maximiza la relacin entre los conjuntos de
variables dependientes e independientes.
El anlisis de correlacin cannica trata con la asociacin entre los
conjuntos de variables mltiples dependientes e independientes. Por ello,
desarrolla varias funciones cannicas que maximizan la correlacin entre
combinaciones lineales, tambin conocidas como valores tericos cannicos,
que son conjuntos de variables dependientes e independientes. Cada funcin
cannica se basa realmente en la correlacin entre dos valores tericos
cannicos, un valor terico para las variables dependientes y otro para las
variables independientes. Otra caracterstica nica de la correlacin cannica
es que se obtienen los valores tericos de forma que se maximice su
correlacin. Adems, la correlacin cannica no acaba con la obtencin de
una relacin simple entre los conjuntos de variables. En su lugar, se pueden
conseguir varias funciones cannicas.

Objetivos del mtodo

1. Determinar si dos conjuntos de variables (medidas realizadas sobre los


mismos objetivos) son independientes uno de otro , inversamente,
determinar la magnitud de las relaciones que pueden existir entre los dos
conjuntos.

Correlacin cannica
408

2. Obtener un conjunto de ponderaciones para cada conjunto de variables


criterio y variables predictoras, para que las combinaciones lineales de
cada conjunto estn correlacionadas de forma mxima. Las funciones
lineales adicionales que maximizan la restante correlacin son
independientes de los conjuntos anteriores de combinaciones lineales.
3. Explicar la naturaleza de cualquiera de las relaciones existentes entre los
conjuntos de variables criterio y variables predictoras, generalmente mide
la contribucin relativa de cada variable a las funciones cannicas.

Estudio de campo

El estudio involucra observaciones en la cabina de pilotos de las


interacciones de la tripulacin con el sistema de control automtico del avin
Boeing 757/767 durante vuelos de contratados por un carguero de EUA.
Cada dato registrado caracteriz un cambio en el modo de seleccin, al
mismo tiempo que un nmero de variables que describan las condiciones
bajo las cuales el cambio ocurri. Los datos iniciales usados en el ACC
consistieron en ms de 1500 registros, cada uno caracterizado por 75
variables. Aproximadamente, la mitad de las variables tenan que ver con la
respuesta de la tripulacin, esto es, su eleccin de volar en el modo de piloto
automtico. Se puede encontrar una descripcin completa del estudio en
Degani (1996).

Preguntas iniciales

En general, estamos interesados en caracterizar las relaciones entre


las situaciones y los patrones de respuestas, esto es, entre el estado del
medio ambiente operativo y la accin humana (tipo de eleccin). El valor de
usar el ACC en este caso esta derivado de su especial adaptabilidad para
encontrar patrones en grupos de datos grandes. Se tienen mltiple variables
independientes que caracterizan situaciones operacionales (permisos
otorgados por la torre de control, comandar el vuelo por el capitn contra el
primer oficial, distancia del aeropuerto, altitud, facilidades de la torre de
control, permisos concedidos, aeropuerto de salida y destino), as como
mltiples variables dependientes consistentes principalmente es variables
categricas usadas para describir la eleccin de la tripulacin de las
modalidades de piloto automtico. Adicionndose a patrones caracterizados

M.H. Badii et al.


409

de relaciones de situaciones- respuesta, queramos poder reconocer casos


raros (atpicos), para enfocar nuestro anlisis en esos casos individuales que
pudieran iluminar el comportamiento inusual de la tripulacin o errores de la
tripulacin. Finalmente, usando el ACC para este anlisis inicial de reduccin
de datos, usamos tanto los patrones de comportamiento tpicos y los casos
atpicos (outliers), como puntos de partida para desarrollar modelos
dinmicos de interacciones automticas de la tripulacin (Degani & Kirlik,
1995).

Diseo del mtodo

Frecuentemente con la correlacin cannica se deben de resolver


cuestiones acerca del impacto del tamao de la muestra (tanto pequeo
como grande) y la necesidad de una cantidad suficiente de observaciones
por variable. Los investigadores pueden tener la tentacin de incluir muchas
variables tanto en el conjunto de variables independientes como en el de
dependientes, ignorando sus implicaciones en el tamao muestral. Los
tamaos muestrales que son muy pequeos, no representarn correlaciones
adecuadamente y como consecuencia esconder cualquier relacin
significante que pueda existir. Los tamaos muestrales muy grandes, tendrn
una tendencia a indicar una significacin estadstica en todas las instancias,
incluso donde la significacin prctica no est indicada. Se sugiere al
investigador a mantener por lo menos diez observaciones por variable para
evitar el sobreajuste de los datos.
La clasificacin de las variables tanto dependientes o independientes
tiene poca importancia en la estimacin estadstica de las funciones
cannicas, ya que el anlisis de correlacin cannica pondera ambos valores
tericos para maximizar la correlacin y no establece ningn nfasis
particular en alguno de los valores tericos. Aunque dado que la tcnica
produce valores tericos que maximizan la correlacin entre ellos, un valor
terico en cualquier conjunto relaciona a todas las otras variables en ambos
conjuntos. Con ello se permite la incorporacin o la supresin de una sola
variable que afecte a la solucin total, particularmente el otro valor terico. La
composicin de cada valor terico, ya sea dependiente o independiente, llega
a ser muy importante. El investigador, antes de aplicar el anlisis de
correlacin cannica, debe relacionar conceptualmente los dos conjuntos de
variables. De esta forma, la especificacin de los valores tericos

Correlacin cannica
410

dependientes frente a los independientes es esencial para establecer una


base conceptual fuerte para las variables.
El ACC es una herramienta potencialmente valiosa en las investigaciones de
factores humanos que tienen 1) una clara distincin entre variables
independientes y dependientes, 2) mltiples variables dependientes, y 3) el
potencial para relaciones multidimensionales entre estos dos grupos de
variables. Por ejemplo, estas condiciones generalmente aparecen en
estudios de campo de toma de decisiones y acciones, pruebas de campo de
productos o sistemas de utilidad, estudios simulados de actuacin profesional
de parte o de toda una misin, y datos de actuacin en lnea tales como
registro de datos de vuelo.
Las ecuaciones generales para realizar una correlacin cannica son
relativamente simples. Primero, se hace una matriz de correlacin (R). Esto
se compone de: correlaciones entre VDs (Ryy), correlaciones entre VIs (Rxx), y
correlaciones entre VDs y VIs (Rxy).

Para el anlisis cannico se resuelve la ecuacin anterior para


eigenvalores y eigenvectores de la matriz R. Los eigenvalores consolidan la
varianza de la matriz, redistribuyendo la varianza original en unas pocas
variantes compuestas. Los eigenvectores, transformados a coeficientes, se
usan para combinar las variables originales con las compuestas. Los
eigenvalores estn relacionados en la correlacin cannica por la siguiente
ecuacin:

Esto es, cada eigenvalor es igual al cuadrado de la correlacin cannica para


cada par de variantes.

La prueba de significancia utiliza la siguiente frmula, y sigue una distribucin


de chi-cuadrada:

M.H. Badii et al.


411

con
N= nmero de casos
kx= nmero de variables en el grupo de VI
ky= nmero de variables en el grupo de VD
DF = (kx)(ky)
m = nmero de correlaciones cannicas

Para probar la significancia de una correlacin cannica, se utiliza la


prueba de Bartlett de la lambda de Wilks. La lambda vara de 0 a 1 y muestra
la varianza del error, la varianza no contabilizada por las variables
independientes. Entonces se interpreta de forma opuesta al cuadrado de la
correlacin mltiple R2. Obtener un 1.0 significa que las variables
independientes no estn contabilizando nada de la varianza en la variable
dependiente, y un 0 significa que las variables independientes estn
contabilizando toda la varianza. Para una lambda menor, una varianza
mayor. 1- ser equivalente a R2. La prueba de chi cuadrada se usa para
probar la significancia de lambda.
La redundancia de las variables se menciona frecuentemente cuando
se tienen resultados de correlacin cannica. A mayor redundancia, o
correlacin entre un grupo de variables, mejor ser la habilidad para predecir
de un grupo a otro.
Dos grupos de coeficientes cannicos son necesarios para cada
correlacin cannica uno para combinar las VDs y otro para combinar las
VIs.
Para las VDs la ecuacin es:

Correlacin cannica
412

Para las VIs:

donde
By = matriz normalizada de eigenvectores
R = matriz de correlaciones

Las dos matrices de coeficientes cannicos se utilizan para estimar el puntaje


en las variantes cannicas:

X = ZxBx
Y = ZyBy

Los puntajes en las variantes cannicas (X, Y) son el producto de los


puntajes de las variantes originales y los coeficientes cannicos usados para
ponderarlas. La suma de los puntajes cannicos para cada variante es igual
a cero. El llenado de las matrices (A) se realiza por la multiplicacin de la
matriz de las correlaciones entre variables con la matriz de coeficientes
cannicos. Estas matrices A son usadas para interpretar las variantes
cannicas.
Ax = RxxBx
Ay = RyyBy

Qu tanta varianza explica cada variante cannica? La proporcin de la


varianza para VIs es:

a = correlaciones llenas
k = nmero de variables en un grupo

M.H. Badii et al.


413

Supuestos bsicos

La generalidad del anlisis de correlacin cannica tambin se


extiende a sus supuestos estadsticos bsicos. El supuesto de linealidad
afecta a dos aspectos de los resultados de la correlacin cannica, primero,
el coeficiente de correlacin entre cualquiera de dos variables esta basado
en una relacin lineal. Si la relacin no es lineal, entonces se debe
transformar una ambas variables si esto fuera posible. Segundo, la
correlacin cannica es la relacin lineal entre los valores tericos.
Si los valores tericos se relacionan de una manera no lineal, la
relacin no ser reflejada por la correlacin cannica. De esta manera,
aunque el anlisis de correlacin cannica es el mtodo multivariante ms
extendido, esta restringido ha la identificacin de relaciones lineales.
El anlisis de correlacin cannica puede emplear cualquier variable
mtrica sin que cumpla el estricto supuesto de normalidad. La normalidad es
deseable porque estandariza una distribucin que nos permite una mayor
correlacin entre las variables. Pero en un estricto sentido, el anlisis de
correlacin cannica puede utilizar incluso variables no normales si la forma
de las distribuciones altamente simtrica no disminuye la correlacin con
otras variables ficticias, tambin sin embargo, se requiere normalidad
multivariante para los contrastes de significacin de inferencia estadstica de
cada funcin cannica. Dado que los contrastes de normalidad multivariantes
no se estn disponibles fcilmente, la lnea a seguir que prevalece es
asegurar que cada variable presenta una normalidad univariante. De este
modo, aunque estrictamente no se requiere normalidad, es altamente
recomendable que se compruebe la normalidad de todas las variables y que
se transformen si fuese necesario.

Funciones y ajustes

Esta seccin corresponde a la obtencin de una ms funciones


cannicas. Cada funcin est formada por un par de valores tericos, uno
que representa las variables independientes y el otro que representa las
variables independientes. El nmero de variables es igual al nmero de
variables que hay en el conjunto de datos menor, ya sea dependiente o
independiente. Por ejemplo, cuando en un problema de investigacin incluye

Correlacin cannica
414

cinco variables independientes y tres variables dependientes, el mximo


nmero de funciones cannicas que puede obtener es tres.
La obtencin de sucesivos valores tericos cannicos es similar al
empleado en el anlisis factorial sin rotacin. El primer factor extrado explica
la mxima cantidad de varianza en el conjunto de variables. Despus se
calcula el segundo factor para que explique lo ms posible la varianza no
explicada por el primer factor, y as sucesivamente, hasta que todos los
factores hayan sido considerados. Por tanto, los posteriores factores se
calculan a partir de los residuos o de la varianza restante de los primeros
factores. El anlisis de correlacin cannica sigue un procedimiento similar,
pero centrndose en la explicacin de la cantidad mxima de relacin entre
los dos conjuntos de variables, en lugar de en un solo conjunto. El resultado
es que el primer par de valores tericos se calcula con el fin de obtener la
mayor intercorrelacin posible entre dos conjuntos de variables. El segundo
par de valores tericos cannicos es obtenido despus para que represente
la mxima relacin entre los dos conjuntos de variables que no han sido
explicados por el primer par de valores tericos. En resumen, los sucesivos
pares de valores tericos cannicos estn basados en la varianza residual y
sus respectivas correlaciones cannicas disminuyen a medida que se
calculan funciones adicionales, es decir el primer par de valores tericos
cannicos refleja la mayor intercorrelacin, el siguiente par la segunda
intercorrelacin, y as, sucesivamente.
Al igual que cualquier investigacin que utiliza otras tcnicas
estadsticas, la prctica ms comn es analizar las funciones cuyos
coeficientes de correlacin cannica son estadsticamente significativos para
un nivel, normalmente 0.05 o mayor. Si se consideran no significativas otras
funciones independientes, estas relaciones entre las variable no se
interpretan. La interpretacin de los valores tericos cannicos en una
funcin significativa est basada en la premisa de que las variables de cada
conjunto, que contribuyen fuertemente a las varianzas compartidas por estas
funciones, son consideradas como relacionadas unas con otras. El uso de un
nico criterio como el nivel de significacin es demasiado superficial. En lugar
de esto, se recomiendan que sean empleados tres criterios que son: 1. El
nivel de significacin estadstica de las funciones. 2. La magnitud de la
correlacin cannica. 3. La medida de la redundancia por el porcentaje de
varianza explicado por los dos conjuntos de datos.

M.H. Badii et al.


415

El nivel de significacin de una correlacin cannica, que


generalmente se considera como el mnimo aceptable para la interpretacin,
es el nivel 0.05, que se ha llegado a convertir junto con el de 0.01 como los
ms habitualmente aceptados para considerar que un coeficiente de
correlacin es estadsticamente significativo. Para superar el sesgo y la
incertidumbre propios del empleo de races cannicas (correlaciones al
cuadrado) como una medida de la varianza compartida se ha propuesto un
ndice de redundancia. Este es el equivalente de calcular el coeficiente de
correlacin mltiple al cuadrado entre el conjunto predictor total entre cada
una de las variables criterio, y despus promediar estos coeficientes al
cuadrado para obtener un R2 medio. Proporciona una medida que resume de
la capacidad del conjunto de las variables predictoras, para explicar la
variacin de la variable criterio como tal, la medida de redundancia es
perfectamente anloga al estadstico R2 de la regresin mltiple, y su valor
como ndice es similar.

Interpretacin del valor terico cannico

Si la relacin cannica resulta estadsticamente significativa y las


magnitudes de la raz cannica y del ndice de redundancia son aceptables,
el investigador an necesita realizar interpretaciones de los resultados. La
realizacin de estas interpretaciones comprende el examen de las funciones
cannicas para determinar la importancia relativa de cada uno de las
variables originales en las relaciones cannicas. Se han propuesto tres
mtodos. 1. Ponderaciones cannicas. 2. Cargas cannicas. 3. Cargas
cruzadas cannicas.
El enfoque tradicional para interpretar las funciones cannicas
comprende el examen del signo y la magnitud de la ponderacin cannica
asociada a cada variable en su valor terico cannico. Las variables con
ponderaciones relativamente mayores contribuyen ms al valor terico y
viceversa. Igualmente, las variables cuyas ponderaciones tienen signos
contrarios presentar una relacin directa, sin embargo, la interpretacin de la
importancia o contribucin relativa de una variable por su ponderacin
cannica esta sujeta a las mismas crticas asociadas con la interpretacin de
los coeficientes beta de las tcnicas de regresin.
El empleo de las cargas cannicas ha sustituido al uso de
ponderaciones cannicas como base de interpretacin, debido a las

Correlacin cannica
416

deficiencias inherentes a estas ltimas. Las cargas cannicas, tambin


denominadas correlaciones de estructura cannica, miden la correlacin
lineal simple entre una variable original observada del conjunto dependiente o
independiente y el valor terico cannico del conjunto. Las cargas cannicas
reflejan la varianza que la variable observada compare con el valor terico
cannico, y puede ser interpretada cono una carga factorial para valorar la
contribucin relativa de cada variable a cada funcin cannica. Se considera
cada funcin cannica independiente de forma separada, y se calcula la
correlacin dentro del conjunto entre variables y valores tericos. Cuanto
mayor sea el coeficiente, mayor es la importancia que tiene para calcular el
valor terico cannico. Los criterios para determinar la significacin de las
correlaciones de estructura cannica tambin son los mismos que con las
cargas factoriales. Las cargas cannicas se consideran ms vlidas que las
ponderaciones cannicas.
Se ha sugerido el clculo de las cargas cruzadas cannicas como
una alternativa a las cargas convencionales. Este consiste en correlacionar
cada una de las variables dependientes originales observadas directamente
con el valor terico cannico independiente, y viceversa. Es parecido a la
regresin mltiple pero difiere en que cada variable independiente, por
ejemplo, esta correlacionado con el valor terico dependiente en lugar de con
una nica variable dependiente. De esta manera las cargas cruzadas
proporcionan una medida ms directa de las relaciones entre las variables
dependientes e independientes eliminando un paso intermedio incluido en las
cargas convencionales.

Validacin y diagnostico

Al igual que cualquier otra tcnica mutivariante, el anlisis de


correlacin cannica debe estar sujeto a mtodos de validacin que
aseguren que los resultados no son solamente especficos de los datos de la
muestra y que pueden ser generalizados a la poblacin. El procedimiento
ms directo es crear dos submuestras de los datos y llevar a cabo el anlisis
en cada submuestra de forma separada. Despus, los resultados se pueden
comparar para buscar la igualdad de las funciones cannicas, las cargas de
los valores tericos, y dems aspectos. Si se encuentran importantes
diferencias, el investigador debe considerar l realiza una investigacin
adicional para asegurar que los resultados finales son representativos de los

M.H. Badii et al.


417

valores poblacionales y no solamente de una nica muestra. Aunque existen


pocos procedimientos de diagnostico desarrollados especficamente para el
anlisis de correlacin cannica, el investigador debe observar los resultaos
teniendo en cuenta las limitaciones de la tcnica. Entre las limitaciones que
pueden tener un mayor impacto sobre los resultados y su interpretacin estn
los siguientes:
La correlacin cannica refleja la varianza compartida por las
combinaciones lineales de los conjuntos de variables y no la varianza
extrada de las variables. Las ponderaciones cannicas obtenidas para
calcular las funciones cannicas estn sujetas a una gran inestabilidad.
Las ponderaciones cannicas son obtenidas para maximizar la
correlacin entre las combinaciones lineales, no para la varianza extrada. La
interpretacin de los valores tericos cannicos puede ser difcil ya que estos
se calculan para maximizar la relacin, y no existen ayudas para la
interpretacin como puede ser la rotacin de los valores tericos, como se
vio en el anlisis factorial. Es difcil identificar una relacin con significado
entre los subconjuntos de variables dependientes e independientes dado que
an no se han desarrollado estadsticos precisos para interpretar el anlisis
cannico, y debemos utilizar medidas inadecuadas como las cargas
cruzadas. Sin embargo, estas limitaciones no deben desanimar a la hora de
utilizar la correlacin cannica. Al contrario, se menciona para aumentar la
efectividad de la correlacin cannica como una herramienta de
investigacin.

Variables redundantes

El primer problema que encontramos fue que la matriz de correlacin


para las variables originales era singular. Esto es un problema comn cuando
el nmero de variables es grande, simplemente quiere decir que algunas
variables son redundantes. Es difcil, sin embargo, determinar por la sola
inspeccin cuales variables son redundantes. Usamos varios mtodos para
atacar este problema, pero la mejor solucin de todas fue usar un anlisis de
celdas anterior al ACC.
El anlisis de celdas (Jardine & Sibson, 1971) es una forma de
analizar una matriz de correlacin que es complementaria al ACC. Donde el
ACC enfatiza los patrones globales, el anlisis de celdas trabaja de abajo
hacia arriba uniendo primero los grupos ms inter-correlacionados de

Correlacin cannica
418

variables, y despus yendo a otras celdas ms grandes que estn menos


inter-relacionadas. Como resultado, las primeras celdas identifican las
fuentes ms probables de redundancia. Como un beneficio colateral, las
celdas grandes nos permiten revisar la fuerza de los resultados del ACC (ya
que el anlisis de celdas y el ACC son bastante diferentes matemticamente
hablando).

Significancia estadstica

Usamos el ACC como parte de un espectro de herramientas


analticas. Por lo tanto, sirve para dirigir la atencin a patrones y a las
desviaciones de esos patrones. No es nuestra intencin poner peso de ms
en la significancia estadstica de los resultados del ACC. Sin embargo,
estamos interesados en estimar la estabilidad de las correlaciones cannicas
computadas, y esto requiere el clculo de errores estndar. La teora del
muestreo para el ACC es compleja y asume normalidad multivariable, un
supuesto lejos de la realidad de nuestros datos: a mayor parte de nuestras
variables dependientes son discretas. Por lo tanto, nos volvimos a un mtodo
bien conocido de remuestreo, el mtodo de jackknife para estimar errores
estndar e intervalos de confianza (Efron & Tibshirani, 1993). Encontramos
que el jackknife es conceptualmente recto, aunque computacionalmente
demandante (ver abajo). El problema relativo de estimar el nivel de
significancia de nuestras correlaciones cannicas pidi una solucin relativa,
el uso de pruebas randomizadas (Edgington, 1987). Los mtodos de
remuestreo, tales como el jackknife y la prueba de randomizacin, esta
siendo ms familiares y aceptadas; su descripcin detallada esta fuera de
este escrito (Simon & Bruce, 1991). Mencionaremos, sin embargo, algunos
de los problemas computacionales derivados de nuestro uso de los mtodos
de jackknife y randomizacin. Para anlisis complejos tales como el ACC
estos mtodos de remuestreo requieren de computadoras veloces y tcnicas
especiales, ya que necesitan la solucin interactiva de cientos de
factorizaciones matriciales. Nuestros programas fueron unidos de rutinas
(Koelcker, 1994) e integrados usando Lenguaje Icon de Programacin
(Griswold & Griswold, 1996), un lenguaje de interpretacin de alto nivel.
Usamos tambin un cdigo que necesita mucho tiempo. El anlisis jackknife
de 897 casos y 50 variables corri en una laptop Pentium en un poco ms de
tres horas.

M.H. Badii et al.


419

Interpretacin y visualizacin

Nuestro problema final es sobre la interpretacin de los resultados.


Tratamos de encontrar mtodos grficos que nos ayudaran a entender y
explicar los patrones multidimensionales encontrados por el ACC. Estos
patrones son importantes porque ayudan al analista a definir, en una forma
de vista de datos, las condiciones ambientales ms importantes y sus
correspondientes efectos en las acciones humanas. Una de las sugerencias
ms tiles fue encontrada por Cliff (1987), que sugiri interpretar la estructura
de las correlaciones ms que las ponderaciones. Las correlaciones
estructurales son las correlaciones de la variante cannica X con cada una
de las variables independientes originales, y la de la variante cannica Y con
cada una de las variables dependientes originales. De esta forma, algunas
veces misteriosas variantes cannicas pueden ser interpretadas en trminos
de su correlacin con las variables originales. Despus usamos dos mtodos
grficos para pintar el patrn de la estructura de las correlaciones y enfatizar
las desviaciones del patrn y los atpicos (outliers, ver Figura 1).

Figura 1. Descripcin del patrn de la estructura de ACC.

Correlacin cannica
420

Conclusiones

El ACC es el mtodo de seleccin cuando se tienen variables


multivariantes dependientes en un contexto de otra forma adecuado para
regresin mltiple. El ACC se utiliza mejor como parte de un grupo de
mtodos analticos. Todo el paquete debe incluir anlisis de celdas, estado
de transicin (Markov) y modelos dinmicos, mtodos grficos, y otros
mtodos estadsticos (Degani, 1996; Degani, Shafto, & Kirlik,; Degani & Kirlik,
1995). Los mtodos de premuestreo pueden ser utilizados para computar
intervalos de confianza y niveles de significacin de correlaciones cannicas.
Las correlaciones estructurales son tiles para interpretar los resultados del
ACC, y las tcnicas de grficas simples pueden ser utilizadas para entender y
explicar los resultados. El ACC es capaz de describir en una forma objetiva
(con datos) algunos de los patrones complejos en los datos de los estudios
de campo, simulaciones, y experimentos controlados en la interaccin del
hombre-mquina. Dirige la atencin del analista a los patrones principales de
los datos, as como tambin a las desviaciones importantes de dichos
patrones. La correlacin cannica se utiliza para analizar la correlacin entre
dos grupos de variables cuando hay un grupo de VIs (variables
independientes) y otro grupo de VDs (variables dependientes). Es un
procedimiento ms bien descriptivo que analtico para probar hiptesis, y
existen varias formas en las que la informacin puede ser combinada en este
procedimiento. El trmino cannica indica que la tcnica se extrae de una
matriz. Se extraern tantas funciones como el menor nmero de variables,
por ejemplo, si hay 5 variables independientes y 3 variables dependientes, se
tendr un total de 3 funciones. Cada funcin describe una cantidad menor de
variacin, por ejemplo, la primera funcin describir la mayor parte de ella,
despus se computar otra funcin en la varianza residual, y as
sucesivamente.
Generalmente, las funciones secundarias son de uso y valor
cuestionable. Se pueden obtener y el programa lo hace, pero eso no significa
que sean de utilidad o que tengan significado. Cada una tiene un coeficiente
de determinacin asociado a ella, y en general ste caer rpidamente
despus del primero.
Son varias las preguntas que pueden ser contestadas con la
Correlacin Cannica. 1. Cuntos pares de variables confiables hay en el
grupo de datos? 2. Qu tan fuerte es la correlacin entre las variables en un

M.H. Badii et al.


421

par? 3. Cmo deben ser interpretadas las dimensiones que relacionan a las
variables? La Correlacin Cannica esta sujeta a varias limitantes. 1. Es
matemticamente elegante pero difcil de interpretar porque las respuestas
no son nicas. 2. La relacin entre variables debe ser linear; si la informacin
esta correlacionada de manera no-linear, entonces otros anlisis sern ms
apropiados. 3. Pequeos cambios en donde las variables estn incluidas en
el anlisis pueden causar grandes diferencias en los resultados, y esto puede
confundir la interpretacin posterior.
Normalmente, no es necesario realizar la Correlacin Cannica, pero
esto aumenta el poder estadstico de una prueba. Como se mencion antes,
es esencial la relacin linear entre las variables. Adems, la homogeneidad
(varianzas muy semejantes) aumenta la potencia de la prueba. La
Correlacin Cannica es muy sensible a datos faltantes en la matriz
analizada y en los datos atpicos. Debe probarse que toda la informacin est
presente y debe resolverse ese problema antes de conducir una Correlacin
Cannica.

Referencia

Alpert, M.I, y R.A. Peterson, 1972. On the interpretation of Canonical Analysis. Journal of
marketing Research, 187.
Alpert, M.I, R.A. Peterson y W.S. Marti, 1975. Testing the significance of canonical
correlations. American Marketing Association 37: 117-119.
Ashley D.A., 1996. Canonical Correlation Procedure for Spreadsheets, 27th Annual Meeting
of Decision Sciences Institute USA.
Badii, M.H., A.R. Pazhakh, J.L. Abreu & R. Foroughbakhch. 2004. Fundamentos del mtodo
cientfico. InnOvaciOnes de NegOciOs 1(1): 89107.
Badii, M.H., J. Castillo & A. Wong. 2006. Diseos de distribucin libre. InnOvaciOnes de
NegOciOs, 3(1): 141-174.
Badii, M.H. & J. Castillo (eds.). 2007. Tcnicas Cuantitativas en la Investigacin. UANL,
Monterrey.
Badii, M.H., R. Ramrez & J. Castillo. 2007a. Papel de estadstica en la investigacin
cientfica. InnOvaciOnes de NegOciOs, 4(1): 107-145.
Badii, M.H., J. Castillo, J. Rositas & G. Alarcn. 2007b. Uso de un mtodo de pronstico en
investigacin. Pp. 137-155. In: M.H. Badii & J. Castillo (eds.). Tcnicas
Cuantitativas en la Investigacin. UANL, Monterrey.
Dillon, W.R, y M. Goldstein, 1984. Multivariate analysis: Methods and applications. New York:
Wiley.
Lambert, Z., y R. Durand, 1975. Some precautions in using canonical analysis. Journal of
Marketing Research 12:468-475.

Correlacin cannica
422

Stewwart, D., y W. Love 1968. A general canonical correlation index. Psychological Bulletin
70: 160-163.
Hair J, Anderson R, Tatham R, Black W. Anlisis Multivariante. Prentice Hall, 2000.

M.H. Badii et al.

You might also like