You are on page 1of 8

Anlisis de Homogeneidad en ViSta The Visual Statistics System*

Rubn D. Ledesma Pedro M. Valero Mora Forrest W. Young

Este documento describe el funcionamiento de un mdulo de Anlisis de Homogeneidad por Mnimos Cuadrados Alternantes integrable como plug-in al programa ViSta The Visual Statistics System. El programa permite analizar y visualizar, en un espacio de pocas dimensiones, la estructura de asociaciones entre variables categricas as como las similitudes entre los objetos a los cuales esas categoras se aplican. La caracterstica ms distintiva del programa es la utilizacin de mtodos grficos dinmicos que facilitan la exploracin y comprensin de los resutados de HOMALS. El programa tambin permite salvar el modelo y/o crear datos a partir de los resultados del mismo. 1. Introduccin En este trabajo se describe un programa informtico original que permite realizar Anlisis de Homogeneidad por Mnimos Cuadrados Alternantes dentro del programa ViSta The Visual Statistics System (Young, 1991-2004). El Anlisis de Homogeneidad es uno de los modelos bsicos de la familia del Escalamiento Optimo del sistema Gifi (Gifi,1990), el cual comprende una serie de tcnicas exploratorias de anlisis multivariado no lineal, extensiones del Anlisis en Componentes Principales y de Correlacin Cannica al caso de variables nominales o con niveles mixtos de medida. Dentro de esa familia, el Anlisis de Homogeneidad se presenta como el modelo menos restrictivo, en el sentido de que trabaja solo con un grupo de variables y todas ellas son analizadas por su informacin nominal. Conceptualmente, el mtodo es similar al Anlisis Factorial de Correspondencias Mltiples (AFCM) de la Escuela Francesa (Benzcri, 1973), cuyo objetivo es identificar un espacio de pocas dimensiones o factores que permitan resumir y representar la estructura de asociaciones en un determinado grupo de variables categricas, as como las similitudes entre los objetos a los cuales esas categoras se aplican. La diferencia esencial entre ambos mtodos radica en el procedimiento de clculo, aunque la solucin es esencialmente la misma. El AFCM utiliza la funcin de Descomposicin de Valores Propios y el Anlisis de Homogeneidad se computa mediante Mnimos Cuadrados Alternantes (Alternating Least Squares, ALS), un algoritmo iterativo comn a todos los modelos del sistema Gifi. Esta solucin es conocida en la literatura con el acrnimo de HOMALS (Homogeneity Analysis by means of ALS). Una formulacin precisa del mtodo se puede consultar en Gifi (1990). Lo que aqu presentamos es una implementacin informtica original de HOMALS, desarrollada sobre la base de una adaptacin del cdigo en LispStat de Bond y Michailidis (1996) al programa Vista The Visual Statistics System. A continuacin, se describe brevemente el funcionamiento y las caractersticas generales del mdulo HOMALS en ViSta. 2 Utilizando HOMALS en ViSta 2.1 Datos y opciones de anlisis Los datos para aplicar HOMALS en ViSta deben tener el formato de una matriz multivariada con variables categricas, donde las filas (observaciones) son los objetos del anlisis y los valores de las variables categricas dispuestas en columnas, las categoras. La Figura 1 muestra una imagen parcial de una matriz de este tipo de datos en el entorno ViSta. Los datos corresponden a muestra de 540 vctimas de accidentes de trfico ocurridos en la ciudad de Mar del Plata (Argentina) (Ungaro y Ledesma, 1999). Las vctimas (objetos del anlisis) se han caracterizado segn tres variables nominales, codificadas como se detalla en la Tabla 1.
*

Una versin ms tcnica de este trabajo puede encontrarse en: Ledesma, R, Valero Mora, P. y Young, F. (2002) Anlisis de Homogeneidad en ViSta "The Visual Statistics System". Metodologa de las Ciencias del Comportamiento. 4 (1), 139149.

Tabla 1 - Codificacin de las variables y categoras del ejemplo


Variable Edad de las vctimas Gravedad de las lesiones sufridas Tipo de accidente protagonizado Etiqueta de la Variable Edad Lesin Accidente Categoras 0 a 17 aos; 18 a 30 aos; 31 a 50 aos; 51 a 60 aos y ms de 61 aos. Leve, Grave, Fatal. Atropello a peatn; Atropello a ciclista; Accidente con moto y Colisiones entre vehculos. Etiqueta de las categoras 0-17; 18-30; 3150; 51-60; Mas61. Leve, Grave, Fatal. Peatn; Ciclista; Moto; Auto.

Aplicando HOMALS a estos datos se busca lograr una representacin de los objetos (vctimas de accidentes) y de las categoras de las distintas variables en un mismo espacio, de modo que sus proximidades y alejamientos permitan describir, al mismo tiempo, las similitudes y diferencias entre los objetos y la estructura de relaciones entre variables. Al seleccionar HOMALS en ViSta aparecer un cuadro de dilogo donde el usuario podr definir ciertas opciones de anlisis (Figura 1). La primera opcin (Dimensions) permite determinar el nmero de dimensiones en la solucin, el resto de las opciones son relativas al computo. La opcin Iterations permite fijar el nmero mximo de iteraciones del algoritmo ALS; las opciones Solution Change y Function Change permiten modificar los criterios de cambio entre un paso y otro de la iteracin para la convergencia del cmputo. Solution Change mide el cambio en los puntajes de los objetos en cada paso de la iteracin y Function Change en la funcin de prdida o ajuste global de la solucin. Finalmente, la opcin Label object by permite definir un identificador para los objetos en los grficos, pudiendo utilizarse las etiquetas de una variable categrica activa o no activa. En el ejemplo se han dejado las opciones tal como aparecen por defecto. Figura 1 - Imagen de una matriz de datos categricos en ViSta y cuadro de dilogo para definir las opciones de anlisis de HOMALS

2.2 Salidas numricas y grficas de HOMALS en ViSta Finalizada la fase de cmputo, puede obtenerse un reporte numrico de la solucin o bien visualizarse los resultados mediante un SpreadPlot. La informacin de salida para el reporte numrico puede ser definida por el usuario mediante un cuadro de dilogo. La Figura 2 muestra una imagen parcial de la salida proporcionada por HOMALS en ViSta (no se incluyen las puntuaciones de los objetos). Figura 2 - Imagen parcial de la salida numrica de HOMALS en ViSta

Esa salida incluye las cuantificaciones de las categoras (Category Quantifications); las medidas de discriminacin de las variables (Discrimination Measures) y las medias de dichas medidas (Average Discrimination Measures). Las cuantificaciones de las categoras se presentan en una matriz donde las filas son las categoras de las variables y las columnas son las cuantificaciones obtenidas en cada dimensin definida para la solucin. Las medidas de discriminacin son las varianzas de las variables cuantificadas, una medida de la contribucin de cada variable a la conformacin de cada dimensin. Esas medidas tiene un valor mximo de 1 que se logra si los puntajes de los objetos estn en grupos excluyentes y todos los individuos (objetos) dentro de una categora son idnticos. En el ejemplo, encontramos que la variable Accidente obtiene las mejores medidas de discriminacin en las dos primeras dimensiones. En trminos de representacin eso significa que las categoras de esa variable poseen la mxima dispersin respecto al origen del referencial, discriminando bien entre los objetos del anlisis. La variable Lesin presenta el caso contrario, pues no parece contribuir sustancialmente a la conformacin de las primeras dimensiones, obteniendo un valor alto en la cuarta. Finalmente, el reporte muestra las medias de las medidas de discriminacin de las variables en cada dimensin. En HOMALS estos son los autovalores de la solucin, una medida de la varianza explicada por cada dimensin. Esos valores indican la cantidad de informacin recogida o contenida en cada dimensin y son una medida del ajuste de la solucin.

Como se ha indicado previamente, puede resultar difcil interpretar de forma directa los resultados de HOMALS, sobre todo cuando el nmero de categoras, de variables o de dimensiones en la solucin es grande. Teniendo presente adems que las interpretaciones ms interesantes surgen de considerar ms de una dimensin por vez, el soporte grfico resulta un elemento clave. Por ello, los programas informticos incluyen grficos como parte de la salida del anlisis, de los cuales el ms popular es el diagrama de dispersin de las puntuaciones y las cuantificaciones en las dimensiones tomadas de a par (denominado plano factorial en la tradicin francesa). ViSta proporciona grficos de ese tipo y tambin dos extensiones del mismo al caso multivariado. Esos grficos son: el diagrama de dispersin en tres dimensiones (Spin plot) y la matriz de diagramas de dispersin (Scatter matrix plot). El Spin plot es un grfico de dispersin rotable que permite representar objetos en tres dimensiones (Figura 3). En esta versin del mtodo, el usuario puede controlar el sentido, la direccin y la velocidad del giro. Otras posibilidades interesantes son: control del foco (zoom) y seleccin de nuevas variables para definir los ejes. El Spin Plot se utiliza para representar las categoras cuantificadas y/o los puntajes de los objetos. Cada eje del grfico es una dimensin en la solucin del anlisis, la posicin de los puntos-objetos y de los puntos-categoras viene determinada por sus respectivos valores (puntajes y cuantificaciones) en cada dimensin. Un plano factorial clsico puede obtenerse poniendo el grfico en la posicin HOME, de este modo se ofrece un diagrama de dispersin en dos dimensiones. Figura 3 - Imagen de Spin Plot que representa las categoras cuantificadas en las tres primeras dimesniones

La segunda extensin del diagrama de dispersin es la matriz de diagramas de dispersin, que extiende dicho mtodo al caso multivariado (Figura 4). En este grfico cada celda muestra los puntajes de los objetos y/o las cuantificaciones de las categoras en el espacio de todas las dimensiones tomadas de a par. En el ejemplo, se han tomado las tres primeras dimensiones, como resultado de lo cual tenemos una matriz simtrica de tres diagramas de dispersin a cada lado de la diagonal. La diagonal lista las etiquetas de las dimensiones (Dim1, Dim2, etc.) y el valor mnimo y mximo de cada una. En esta versin dinmica del mtodo, todos las celdas estn vinculados por los objetos y/o las categoras, eso significa que una accin del usuario sobre una celda de la matriz propaga la accin al resto de las casillas. De este modo, un objeto o categora (o grupo de objetos/categoras) puede ser explorado/a teniendo en cuenta todas las combinaciones bivariadas al mismo tiempo. En el ejemplo, se han seleccionado sobre una de las celdas del grfico las categoras 0-17 aos (variable: Edad) y Atropello a peatn (variable: Tipo de accidente), las que aparecen iluminadas en todos los diagramas de dispersin.

Figura 4 - Imagen de una Matriz de diagramas de dispersin dinmica que representa los objetos y las categoras en las tres primeras dimensiones.

Adems de los grficos anteriores, puede obtenerse una representacin complementaria para visualizar de forma desagregada la transformacin de las categoras en las distintas dimensiones de la solucin (Figura 5). Este procedimiento es equivalente al grfico de transformacin univariada de la versin en Lisp, solo que es ms completo y dinmico. La diferencia esencial es que pueden verse todas las transformaciones de una variable en las diferentes dimensiones al mismo tiempo en el mismo grfico, y pasar rpidamente de una variable a otra sin necesidad de cambiar de ventana. De otra manera, para este caso se dispondra de una salida de 15 grficos diferentes (3 variables por 5 dimensiones). Este mtodo de visualizacin est formado por tres ventanas: una lista con los nombres de las variables del anlisis; una lista con las dimensiones de la solucin y un grfico de puntos paralelos para visualizar la transformacin de cada variable. El mtodo funciona de la siguiente manera: al seleccionar una variable en la lista, el grfico de puntos presenta verticalmente la cuantificacin de cada categora en las distintas dimensiones. Cuando seleccionamos una o varias dimensin en la Lista, podemos ver la transformacin de la variable completa en tales dimensiones. Figura 5 - Imagen de un mtodo dinmico para visualizar la transformacin de las variables en las dimensiones de HOMALS

Por ltimo, las medidas de discriminacin pueden ser visualizadas mediante un grfico propio. Se trata de un diagrama de lneas paralelas donde las variables del anlisis se presentan como puntos

dispuestos verticalmente, ubicados segn su correspondiente valor de discriminacin en cada dimensin (columnas). El eje vertical est ajustado al rango 0-1, valores posibles de las medidas de discriminacin. Los puntos-variables estn ligados, lo que permite explorar el perfil de una o varias variables en el espacio de todas las dimensiones al mismo tiempo. El grfico presenta las medias de los puntos conectadas entre s por medio de una lnea verde, esa lnea representa los autovalores de cada dimensin. Eso permite evaluar, al mismo tiempo, las medidas de discriminacin de las variables y la importancia relativa de cada dimensin en la solucin global. Figura 6 - Grfico dinmico de lneas paralelas con las medidas de discriminacin de las variables y los autovalores de las dimensiones de HOMALS

2.3. Visualizacin estructurada del modelo: SpreadPlot de HOMALS La mayor ventaja de HOMALS en ViSta es que los mtodos anteriores se estructuran en una nica representacin, donde los grficos, adems de sus propias capacidades interactivas, estn relacionados empricamente por los objetos, las categoras y las dimensiones de la solucin. Eso se logra utilizando la arquitectura de los SpreadPlots. El SpreadPlot de HOMALS incluye cuatro grficos bsicos: una Lista con los nombres de los objetos y las categoras; un Spin Plot; una Matriz de diagramas de dispersin y un Grfico de las medidas de discriminacin (Figura 7). Asimismo, puede obtenerse desde el mismo SpreadPlot una ventana con el grfico de transformacin discutido en el apartado anterior. Lo importante de esta estructura es que los distintos grficos estn vinculados empricamente. Por ejemplo, puede utilizarse la Lista, a la izquierda del Spreadplot (donde se presentan los nombres de los objetos y de las categoras de las variables) como mtodo para identificar o seleccionar observaciones y categoras en el resto de los grficos. Esto significa que al seleccionar con el ratn un determinado objeto o categora - o un conjunto de objetos y categoras -, los mismos se iluminarn automticamente en el resto de los grficos, pudindose identificar con facilidad su posicin en el espacio. Para facilitar esa tarea se utilizan diferentes colores para los objetos y las categoras correspondientes a las distintas variables. Otra posibilidad es utilizar la matriz de diagramas de dispersin como panel dinmico para seleccionar las dimensiones (ejes) del Spin Plot. Puede seleccionarse una o varias dimensiones pinchando con el ratn en la diagonal de la matriz, o seleccionarse un determinado par de dimensiones realizando la misma accin sobre una celda especfica (diagramas de dispersin). El Spin Plot se acomodar automticamente a la seleccin que el usuario realice sobre la matriz de diagramas de dispersin. De ese modo es posible explorar dinmica y secuencialmente los resultados en las distintas dimensiones.

Figura 7 - Grfico extendido (SpreadPlot) para visualizar los resultados de HOMALS aplicado a los datos del ejemplo

Finalmente, el usuario puede generar sus propias representaciones o utilizar otros mtodos de ViSta para analizar los resultados. Esto es posible utilizando el comando Crear Datos de HOMALS para guardar las puntuaciones de los objetos, las cuantificaciones de las categoras y/o las medidas de discriminacin como nuevos datos. Estos archivos pueden utilizarse para realizar nuevos anlisis y visualizaciones. 3. Comentarios finales Actualmente HOMALS funciona como plug-in integrable a ViSta 6.4 para Windows (95, 98, NT y 2000). El programa no corre bajo Windows 3.x y tampoco est disponible para Macintosh y Unix (aunque existen versiones previas de ViSta que operan en tales plataformas). Por otro lado, si bien existen versiones anteriores del programa en castellano, ViSta 6.4 solo se encuentran disponible en ingls. El programa ViSta puede obtenerse gratuitamente desde la direccin URL: http://forrest.psych.unc.edu/research/index.html o desde el siguiente mirror espaol URL: http://www.uv.es/~prodat. Con respecto al plug-in de HOMALS, puede solicitarse directamente a los autores. 4. Referencias Bond, J. y Michailides, G. (1996). Homogeneity Analysis in LISP-STAT. Journal of Statistical Software, 1, 2, 1-31. Benzcri, J.P (1973). Analyse des Dones (2 vols.). Pars: Dunod. Cleveland, W. S. (1993). Visualizing Data. Murray Hill, NJ: ATyT Bell Lab. Gifi, A. (1990). Nonlinear Multivariate Analysis. Chichester: Wiley. SPSS Inc. (1990). SPSS Categories Users Manual. Chicago: SPSS Inc. Tierney, L. (1990). Lisp-Stat - An Object-Oriented Environment for Statistical Computing and Dynamic Graphics. NY: John Wiley&Sons. Ungaro, J., Ledesma, R. (1999). Accidentes de trnsito: un anlisis tipolgico mediante la aplicacin de mtodos estadsticos descriptivos multidimensionales. CM-Publicacin Mdica, 12, 1, 15-19.

Young, F., Valero Mora, P., Faldowsky, R. A., Bann, C. (2000). SpreadPlots. Chapel Hill, NC: L. L. Thurstone Psychometric Lab, Univ. N. Carolina at Chapel Hill. The Visual Statistics Project, Report Number 2000-4. Young, F. (1991-2004). ViSta The Visual Statistics System (version 6.4) [software] [On-line], Disponible: URL: http://forrest.psych.unc.edu/research/index.html

You might also like