Professional Documents
Culture Documents
FACULTAD DE INGENIERA
DEPARTAMENTO ACADMICO DE CIENCIAS EXACTAS
DIRECCIN DE INFORMACIN ESTADSTICA
Programa de
Especializacin
ANLISIS DE
DATOC
SON SPSS
Versi
n 15.0
en
Espao
MDULO AVANZADO
Preparado por
Estad. Manuel Hurtado Snchez
Chiclayo, 2008
datos
cualitativos que encuentran en variables nominales. Una de las ventajas del anlisis de
correspondencias es que permite acomodar tanto datos no mtricos como relaciones
no lineales.
las
Un ejemplo sencillo
Examinemos una situacin sencilla como introduccin al CA. En su forma ms bsica,
CA examina las relaciones entre categoras d datos nominales en una tabla de
contingencia, la tabulacin cruzada de dos variables categricas. Por ejemplo,
supongamos que las cifras de ventas de los productos A, B y C se dividen en tres
categoras de edades (adultos jvenes, con edades comprendidas entre los 18 y los 35
aos; adultos con edades comprendidas entre 36 y los 55 aos; y tercera edad,
mayores de 56 aos). Los datos de tabulacin cruzada se muestran en la siguiente
tabla.
Total
Jvenes
Adultos
Tercera Edad
20
40
20
20
10
10
20
40
40
60
90
70
Total
80
40
100
220
Lo datos muestran que las unidades vendidas varan sustancialmente por productos (El
producto C tiene las mayores ventas totales, el producto B las ms bajas) y por grupos
de edad (los adultos de edades medias compran ms unidades, los jvenes los que
menos). Pero queremos identificar cualquier patrn de ventas de tal forma que
podamos afirmar que los jvenes compran ms el producto X o que los adultos
compran ms el producto Z. Para hacer esto, necesitamos una medida de
estandarizacin de unidades de ventas que considere simultneamente las diferencias
en las ventas para una combinacin de producto especfico-categora de edad. A
continuacin, si todava vemos que un cierto grupo de edad compra ms unidades de
un producto que las esperadas, podemos asociar ese grupo de edad con ese producto.
En una representacin grfica, los grupos edad se localizaran ms cerca de productos
con los cuales estn altamente asociados y ms lejos de grupos con asociaciones ms
bajas. Del mismo modo, queremos ser capaces de ver cualquier producto y ver sus
asociaciones con varios grupos de edad.
Ventas _ esperadas =
(Ventas _ totales _ por _ categora _ de _ edad ) x (ventas _ totales _ del _ tipo _ de _ producto)
conjunto _ de _ las _ ventas _ totales
En nuestro ejemplo, las ventas esperadas de los jvenes que compran el producto
A son de 21,28 unidades como se muestra en el siguiente clculo:
Ventas _ esperadas jvenes , producto _ A =
60 80
= 21,82
220
Este clculo se realiza para cada celda, con los resultados que se muestran en la
tabla 2.
Total
20
25
33.33
21.82
1.82
0.152
-0.15
20
50
33.33
10.91
-9.09
7.58
7.58
20
20
33.33
27.27
7.27
1.94
-1.94
60
27.27
100
60
40
50
44.44
32.73
-7.27
1.616
1.62
10
25
11.11
16.36
6.36
2.47
-2.47
40
40
44.44
40.91
0.91
0.02
-0.02
90
40.91
100
90
20
25
28.57
25.45
5.45
1.17
-1.17
10
25
14.29
12.73
2.73
0.58
-0.58
40
40
571.43
31.82
-8.18
2.10
2.10
70
31.82
100.0
70.0
80
100
36.36
80
40
100
18.18
40
100
100
45.45
100
220
100
100
220
2.94
10.63
4.06
17.63
Jvenes
Ventas
Porcentaje de columna
Porcentaje de fila
Ventas esperadas
Diferencia
Valor Chi cuadrado
Similitud
9.67
Adultos
Ventas
Porcentaje de columna
Porcentaje de fila
Ventas esperadas
Diferencia
Valor Chi cuadrado
Similitud
4.11
Tercera Edad
Ventas
Porcentaje de columna
Porcentaje de fila
Ventas esperadas
Diferencia
Valor Chi cuadrado
Similitud
3.86
Total
Ventas
Porcentaje de columna
Porcentaje de fila
Ventas esperadas
Diferencia
Valor Chi cuadrado
(Diferencia )2
Vantas _ Esperadas
2
(
1,82 )
=
21,82
= 0,15
producto grupo de edad tiene menos ventas que las que cabra esperar (una
asociacin negativa) y una gran diferencia negativa indicara asociaciones
positivas (laceada de las ventas observadas mayor que las ventas esperadas).
Las diferencias para cada celda se muestran tambin en la tabla 2.
3. Calcular el valor de la Chi-Cuadrado: El paso final es estandarizar las diferencias
entre las celdas de tal forma que se puedan realizar fcilmente las
comparaciones. La estandarizacin es necesaria porque sera mucho ms fcil
que se presenten diferencias si las frecuencias (ventas) fueran mucho ms altas
comparadas con una celda con slo unas pocas ventas. As que,
estandarizamos las diferencias para formar un valor de una Chi-Cuadrado
dividiendo cada diferencia al cuadrado por el valor esperado de las ventas. Por
tanto, el valor de la Chi-Cuadrado para una celda se calcula de la siguiente
forma:
( )
2
(Diferencia )2
Ventas _ esperadas
( )
Chi Cuadrado
jvenes , producto _ A
2
(
1,82 )
=
21,82
= 0,15
Las celdas con Grandes valores de similitud positivos (indicando una asociacin
positiva) son los jvenes, producto B (+7,58), Adultos, producto A (+1,62) y
tercera edad, producto C (+2,10). Cada uno de estos pares estaran muy
cercanos en un mapa perceptual. Las cldas con grandes valores de similitud
(que significan que las ventas esperadas exceden a las reales, o una asociacin
positiva) seran los jvenes, producto C (-1,94), Adultos, producto B (-2,47) y
tercera edad, producto A (-1,17). Donde sea posible, estas categoras deberan
estar alegadas en el mapa.
16
14
Producto B
Producto C
Dimensin II
12
Jvenes
10
8
Adultos
6
4
Producto B
2
0
0
10
12
14
16
Dimensin I
El investigador debe determinar los objetivos especficos del anlisis debido a que
ciertas decisiones se basan en el tipo de objetivo elegido. El CA ofrece una
representacin multivariante de interdependencia para datos no mtricos que no es
posible realizar con otros mtodos. El investigador debe asegurarse incluir a todas
las variables relevantes apropiadas.
Segundo
paso:
Diseo
de
la
investigacin
mediante
anlisis
de
correspondencias (CA)
El anlisis de correspondencias solo requiere de una matriz de datos rectangular
(Tabulacin cruzada) de entradas no negativas. Las filas y las columnas no tienen
significados predeterminados(es decir los atributos no siempre tienen que ser filas)
pero en su lugar representan las respuestas de una o ms variables categricas.
Las categoras para una fila o una columna no tienen que ser necesariamente una
nica variable sino que pueden representar cualquier conjunto de relaciones. Como
ejemplo principal tenemos el mtodo de escoja cualquiera en el que se da a los
encuestados un conjunto de objetos y caractersticas. Los encuestados indican a
continuacin los objetos, si es que hay alguno, estn descritos por esas
caractersticas. Ntese que el encuestado pede elegir cualquier nmero de objetos
para cada caracterstica, en lugar de un nmero ya especificado (es decir, elegir
slo el objeto que mejor se describe o el mejor de los objetos). En esta situacin, la
tala de tabulacin cruzada sera el nmero total de veces que cada objeto est
descrito por cada caracterstica.
La tabulacin cruzada de ms de dos variables bajo la forma de una matriz
multientrada se conoce como el anlisis de correspondencias mltiple. En un
procedimiento bastante similar al anlisis de dos entradas, las variables adicionales
son ajustadas, de forma que todas las categoras estn situadas en el mismo
espacio multidimensional.
10
11
12
mediante anlisis split o multimuestra Sin embargo como con otras tcnicas de
elaboracin de mapas preceptales, debe establecerse la generalidad de los
objetos (individualmente y como un conjunto). Puede evaluarse la sensibilidad de
los resultados a la adicin o sustraccin de un atributo. El objetivo es evaluar si el
anlisis es dependiente de slo unos pocos objetos y/o atributos. En cada caso el
investigador debe entender el verdadero significado de los resultados en trminos
de os objetos y los atributos.
13
14
15
una variable dispone de cinco categoras y la otra de cuatro, el nmero mximo de dimensiones
es tres. Las categoras suplementarias no son activas. Por ejemplo, si una variable dispone de
cinco categoras, dos de las cuales son suplementarias, y la otra variable dispone de cuatro
categoras, el nmero mximo de dimensiones es dos. Considere todos los conjuntos de
categoras con restriccin de igualdad como una nica categora. Por ejemplo, si una variable
dispone de cinco categoras, tres de las cuales tienen restriccin de igualdad, dicha variable se
debe tratar como si tuviera tres categoras en el momento de calcular la dimensionalidad
mxima. Dos de las categoras no tienen restriccin y la tercera corresponde a las tres categoras
restringidas. Si se especifica un nmero de dimensiones superior al mximo, se utilizar el valor
mximo.
16
Debe definir un rango para la variable de filas. Los valores mnimo y mximo
especificados deben ser nmeros enteros. En el anlisis, se truncarn los valores de
los datos fraccionarios. Se ignorar en el anlisis cualquier valor de categora que est
fuera del rango especificado.
Inicialmente, todas las variables estarn sin restringir y activas. Puede restringir las
categoras de fila para igualarlas a otras categoras de fila o puede definir cualquier
categora de fila como suplementaria.
Las categoras deben ser iguales. Las puntuaciones de las categoras deben
ser iguales. Utilice las restricciones de igualdad si el orden obtenido para las
categoras no es el deseado o si no se corresponde con lo intuitivo. El mximo
nmero de categoras de fila que se puede restringir para que sean
consideradas iguales es el nmero total de categoras de fila activas menos 1.
Utilice la sintaxis para imponer restricciones de igualdad a diferentes conjuntos
de categoras. Por ejemplo, utilice la sintaxis para imponer la restriccin de que
sean consideradas iguales las categoras 1 y 2 y, por otra parte, que sean
consideradas iguales las categoras 3 y 4.
La categora es suplementaria. Las categoras suplementarias no influyen en
el anlisis pero se representan en el espacio definido por las categoras activas.
Las categoras suplementarias no juegan ningn papel en la definicin de las
dimensiones. El nmero mximo de categoras de fila suplementarias es el
nmero total de categoras de fila menos 2.
17
Pulse en Actualizar.
Pulse en Continuar.
Si lo desea, puede especificar restricciones de igualdad entre las categoras de la variable de
fila y definir algunas categoras como suplementarias. Para cada categora que se deba
restringir o definir como suplementaria, seleccione la categora de la lista de categoras
generada por Actualizar y seleccione La categora es suplementaria o Las categoras deben ser
iguales. Para las restricciones de igualdad, se deben designar, al menos, dos categoras como
iguales.
Inicialmente, todas las variables estarn sin restringir y activas. Puede restringir las
categoras de columna para igualarlas a otras categoras de columna o puede definir
cualquier categora de columna como suplementaria.
Las categoras deben ser iguales. Las puntuaciones de las categoras deben ser
iguales. Utilice las restricciones de igualdad si el orden obtenido para las
categoras no es el deseado o si no se corresponde con lo intuitivo. El nmero
mximo de categoras de columna al que se puede imponer la restriccin de
igualdad es el nmero total de categoras de columna activas menos 1. Utilice la
sintaxis para imponer restricciones de igualdad a diferentes conjuntos de
18
19
Se eliminan las medias de filas y columnas. Se centran las filas y las columnas.
Este mtodo es necesario para el anlisis de correspondencias tpico.
Se igualan los totales de fila y se eliminan las medias. Antes de centrar las filas,
se igualan los mrgenes de fila.
Se igualan los totales de columna y se eliminan las medias. Antes de centrar las
columnas, se igualan los mrgenes de columna.
20
Principal. Las distancias entre los puntos de fila y los puntos de columna son
aproximaciones de las distancias en la tabla de correspondencias de acuerdo
con la medida de distancia seleccionada. Utilice este mtodo si desea examinar
las diferencias entre las categoras de una o de ambas variables en lugar de las
diferencias entre las dos variables.
Principal por fila. Las distancias entre los puntos de fila son aproximaciones de
las distancias en la tabla de correspondencias de acuerdo con la medida de
distancia seleccionada. Las puntuaciones de fila son la media ponderada de las
puntuaciones de columna. Utilice este mtodo si desea examinar las diferencias
o similaridades entre las categoras de la variable de filas.
Principal por columna. Las distancias entre los puntos de columna son
aproximaciones de las distancias en la tabla de correspondencias de acuerdo
con la medida de distancia seleccionada. Las puntuaciones de columna son la
media ponderada de las puntuaciones de fila. Utilice este mtodo si desea
examinar las diferencias o similaridades entre las categoras de la variable de
columnas.
21
22
Diagramas de dispersin. Produce una matriz de todos los grficos por parejas de las
dimensiones. Los diagramas de dispersin disponibles incluyen:
23
24
Especificar datos tabulares como entrada en lugar de utilizar datos por caso
(mediante el subcomando TABLE = ALL).
Especificar el nmero de caracteres de etiqueta de valor que se utilizan al
etiquetar los puntos para cada tipo de diagrama de dispersin matricial o
diagrama de dispersin biespacial matricial (mediante el subcomando PLOT).
Especificar el nmero de caracteres de etiqueta de valor que se utilizan al
etiquetar los puntos para cada tipo de grfico de lneas (mediante el
subcomando PLOT).
Escribir una matriz de puntuaciones de fila y de columna en un archivo de datos
matriciales de SPSS (mediante el subcomando OUTFILE).
Escribir una matriz de estadsticos de confianza (varianzas y covarianzas) para
los valores propios y las puntuaciones en un archivo de datos matriciales
(mediante el subcomando OUTFILE).
Especificar varios conjuntos de categoras para igualar (mediante el
subcomando EQUAL).
25
MODERNO AMIGABLE SOLIDARIO JUVENIL EXPORTABLE ELEGANTE CONFIABLE CREATIVO ECONMICO DIVERTIDO CLSI
LEVIS
56
LOIS
31
58
BENNETTON
35
25
59
31
ZARA
52
23
45
OPEL
12
14
VOLKSWAGEN
27
SEAT
18
19
AUDI
35
COCACOLA
32
41
KAS
19
25
PEPSICOLA
31
19
13
51
74
31
26
17
11
17
61
21
38
29
30
16
18
40
23
23
15
56
29
47
21
27
22
19
16
56
64
55
16
23
50
81
19
12
36
10
25
38
49
11
10
20
18
21
13
10
17
13
65
12
15
29
25
24
50
12
22
44
35
19
31
35
16
32
23
13
13
26
21
13
CASERA
19
16
37
53
SUPLEMENTO
44
59
28
55
20
24
37
30
33
49
19
podemos
asociar
nuestro
problema
con
un
anlisis
de
26
Figura E1.1
Figura E1.2
27
El siguiente paso es ponderar los casos por las frecuencias absolutas. Para ello se
elige en el men del SPSS Datos Ponderar _ casos tal como aparece en las figuras
E1.3 y E1.4 y se pulsa Aceptar .
Figura E1.3
Figura E1.4
28
Figura E1.5
Figura E1.6
29
corresps
mediante
Archivo Abrir Datos . Esta base contiene los datos sobre determinados
productos del mercado y las variables a analizar son la Marca del Producto
(Producto) y sus caractersticas (Caracterstica). En nuestro caso hemos introducido
una categora suplementaria de nombre Suplemento para la variable Producto.
En cuanto a los datos, las variables categricas que se van ha analizar se
encuentran escaladas a nivel nominal. Para los datos agregados o para una medida
de correspondencia distinta de frecuencias, utilice una variable de ponderacin con
valores de similaridad positivos. De manera alternativa, para datos tabulares, utilice
la sintaxis para leer la tabla.
En cuanto a los supuestos, el mximo nmero de dimensiones utlizado en el
procedimiento depende del nmero de categoras activas de fila y de columna y del
nmero de restricciones de igualdad. Si no se utilizan criterios de igualdad y todas
las categoras son activas, la dimensionalidad mxima es igual al nmero de
categoras de la variable con menos categoras menos uno. Por ejemplo, Si una
variable dispone de cinco categoras y la otra de cuatro, el nmero mximo de
dimensiones es tres.
Las categoras suplementarias no son activas. Por ejemplo, si una variable dispone
de dispone de 5 categoras, dos de las cuales son suplementarias, y la otra variable
dispone de 4 categoras, el nmero mximo de dimensiones es 2.
En los campos Fila y Columna de la figura E1.6 se introduce las dos variables a
cruzar en la tabla de contingencia. En los botones Definir rango un rango para la
variables de Fila (Fig. E1.7) y columnas (Fig. E1.8). Los valores mnimo y mximo
deben ser nmeros enteros. En el anlisis se truncaran los valores de los datos
fraccionarios. Se ignorar en el anlisis cualquier valor de categora que est fuera
del rango especificado. Inicialmente todas las variables estarn sin restringir y
activas. Se puede restringir las categoras de fila para igualarlas a otras categoras
de fila (campo Restricciones para las categoras) o puede definir cualquier categora de
fila como suplementaria. Las categoras deben ser iguales es una restriccin que indica
que las puntuaciones de las categoras deben ser iguales. Utilice las restricciones
de igualdad si el orden obtenido para las categoras no es el deseado o si no se
corresponde con lo intuitivo. El mximo nmero de categoras de fila que se puede
30
Fig. E1.7
31
Fig. E1.8
El botn Modelo de la figura E1.9 nos lleva al cuadro de dilogo Modelo (Figura
E1.10) que permite especificar el nmero de dimensiones, a medida de la distancia,
el mtodo de estandarizacin y el mtodo de normalizacin.
Figura E1.9
32
Figura E1.10
En la opcin dimensiones en la solucin especifique el nmero de dimensiones. En
general, seleccione el menor nmero de dimensiones que necesite para explicar la
mayor parte de la variacin. El mximo nmero de dimensiones depende del
nmero de categoras activas utilizadas en el anlisis y de las restricciones de
igualdad. El mximo nmero de dimensiones es el menor entre el nmero de las
categoras de fila activas menos el nmero de categoras de fila con restriccin de
igualdad, ms el nmero de conjuntos de categoras de fila que se han restringido y
el nmero de categoras de columna activas menos el nmero de categoras de
columna con restriccin de igualdad, ms el nmero de conjuntos de categoras de
columna que se han restringido.
En el cuadro Medida de distancia puede seleccionar la media de distancia entre las
filas y columnas de la tabla de correspondencias. Seleccione Chi-cuadrado (utiliza
una distancia ponderada entre los perfiles, donde la ponderacin es la masa de las
filas o de las columnas siendo una distancia necesaria para el anlisis de
correspondencias tpico) o Eucldea (utiliza la raz cuadrada de la suma de los
cuadrados de las diferencias entre los pares de filas y entre los pares de columnas).
33
Simtrico: Para cada dimensin, las puntuaciones de fila son la media ponderada de
Principal: Las distancias entre los puntos de fila y los puntos de columna son
Principal por fila: Las distancias entre los puntos de fila son aproximaciones de las
Principal por columna: Las distancias entre los puntos de columna son
34
corresponde a Simtrico. Todos los dems valores dispersan la inercia entre las
puntuaciones de columna y de fila en diferentes grados. Este mtodo es til para
generar diagramas de dispersin biespaciales a medida.
El botn Estadsticos de la figura E1.9 nos lleva al cuadro de dilogo Estadsticos
(E1.11), que permite especificar los resultados numricos producidos. Las opciones
posibles son: Tabla de correspondencias, que ofrece la tabla de contingencia de las
variables de entrada con los totales marginales de fila y columna; Inspeccin de los
puntos de fila, que ofrece para categora de fila las puntuaciones, la masa, la inercia, la
35
Figura E1.11
36
Figura E1.12
El botn Grficos de la figura N E1.9 nos lleva al cuadro de dilogo Grficos de la
figura E1.12 que permite especificar que grficos se van a generar. La opcin
Diagramas de dispersin produce una matriz de todos los grficos por parejas de las
dimensiones.
Los diagramas de dispersin disponibles incluyen: Diagramas de dispersin
biespacial (produce una matriz de diagramas conjuntos de los puntos de fila y de
seleccionando los
distintos tipos de resultados haciendo clic sobre ellos. Tambin se ven los resultados
desplazndose a los largo de la pantalla.
37
En las figuras E1.14 a E1.17 se presentan varias salidas tabulares de entre las
mltiples que ofrece el procedimiento y en las figuras E1.18 a E1.20 se presentan
varias salidas grficas de entre las mltiples que ofrece el procedimiento.
La figura E1.13 muestra la tabla de contingencia para las dos variables con sus
marginales. La figura E1.14 muestra los perfiles de la fila y columna, que son las
proporciones en cada fila y columna de cada celda basadas en los totales marginales.
Los grficos de puntos fila y columna de las figuras E1.18 a E1.20 representan estas
proporciones para la localizacin geomtrica de los puntos.
de valor 0,403 (inercia = = 0,4032 = 0,163), que expresada en relacin a la inercia total
de la nube 0,395, presenta un 41,2%. La segunda dimensin presenta una inercia de
0,100, lo que supone un 25,2% de la inercia total de la nube, lo que la hace menos
importante que la primera. Los valores propios pueden interpretarse como la
correlacin entre las puntuaciones de filas y columnas. Para cada dimensin, el
cuadrado del valor propio es igual a la inercia y por tanto es otra medida de la
importancia de esa dimensin. Como los dos primeros ejes explican slo el 66,4% de la
inercia total de la nube, podra ser conveniente considerar tambin el tercero para
alcanzar el 81,2%(el 90,4% con el cuadro).
En la figura E1.15 tambin aparece el valor del estadstico Chi-cuadrado con un pvalor menor que 0,01, lo que nos lleva a rechazar la hiptesis nula de independencia entre
las dos variables al 99%. Para los dos ejes retenidos tambin se ve su desviacin tpica y el
coeficiente de correlacin entre ellos.
En le examen de los puntos fila y columna (Figuras E1.16 y E1.17) se ofrecen las
contribuciones a la inercia total de cada punto fila y columna. Los puntos fila y columna que
38
contribuyen sustancialmente a la inercia de una dimensin son importantes para esa dimensin.
La primera columna de las tablas de examen presenta las etiquetas de las modalidades de las
variables. La segunda columna presenta las masas (frecuencia marginal relativa). Las dos
columnas siguientes presentan las coordenadas de cada punto en los dos factores retenidos
(puntuaciones en la dimensin). La columna siguiente muestra inercia de cada punto. Las cuatro
columnas siguientes presentan las contribuciones absolutas y relativas a los ejes retenidos. La
ltima columna presenta la calidad de la presentacin en el subespacio considerado (plano de los
dos primeros ejes).
A la hora de interpretar los ejes factoriales hay que determinar qu puntos son los que
generan buscando aquellas filas y columnas que presenten contribuciones absolutas ms
importantes. Las modalidades de las variables mejor representadas en cada eje se determinan a
travs de las contribuciones relativas.
Figura E1.13
39
Figura E1.14
Inercia
acumulada de las
Figura E1.15
33.9%
40
46.6%
Figura E1.16
29.3%
Figura E1.17
41
De la observacin de las tablas de las figuras E1.16 y E1.17 y los grficos de las figuras
E1.18 a E1.20, se infiere que el Primer eje factorial viene generado por la oposicin de las
caractersticas elegantes y confiables, que se sitan en el extremo negativo (figura E1.19) y que
contribuyen conjuntamente a un 50,3% de la inercia explicada para el primer eje, frente a los
tributos amigable, divertida y juvenil, situados en el extremo positivo y que aportan el 26,9% de
la inercia de eje (figura E1.17).
En cuanto a los productos y caractersticas que mejor estn representados sobre este primer
eje factorial, que sern las de contribuciones relativas ms elevadas, se observa que se corrobora
lo expuesto en los prrafos anteriores. Los productos ms importantes son Audi (94,5%),
Volkswagen (88,7%), Kas (81,5%), Pepsicola (59,2%) y Opel (51,6%). Las caractersticas ms
importantes son: confiable (85,8%), elegante (80,8%), divertido (78%), y amigable (73%).
Este primer eje factorial identifica conceptos ms serios (elegancia, fiabilidad, etc.) con
los refrescos.
En cuanto al segundo eje factorial
42
Simtrica Normalizacin
1,0
BENNETTON
LEVIS
Dimensin 2
0,5
PEPSICOLA
VOLKSWAGEN
0,0
COCACOLA
LOIS
AUDI
SUPLEMENTO
KAS
ZARA
OPEL
-0,5
SEAT
-1,0
CASERA
-1,5
-1,5
-1,0
-0,5
0,0
0,5
1,0
Dimensin 1
Figura E1.18
43
Simtrica Normalizacin
SOLIDARIO
1,0
EXPORTABLE
Dimensin 2
0,5
CREATIVOJUVENIL
MODERNO DIVERTIDO
0,0
ELEGANTE
CONFIABLE
DIFERENTE
AMIGABLE
-0,5
CLSICO
-1,0
ECONMICO
-1,5
-1,5
-1,0
-0,5
0,0
0,5
1,0
Dimensin 1
Figura E1.19
44
Simtrica Normalizacin
SOLIDARIO
1,0
CARACTERSTICA
PRODUCTO
BENNETTON
Dimensin 2
0,5
0,0
CREATIVO
PEPSICOLA
JUVENIL
MODERNO
DIVERTIDO
COCACOLA
VOLKSWAGENSUPLEMENTO LOIS
ELEGANTE
CONFIABLE
DIFERENTE
KAS
AUDI
AMIGABLE
ZARA
OPEL
EXPORTABLELEVIS
-0,5
CLSICO
SEAT
-1,0
ECONMICO
CASERA
-1,5
-1,5
-1,0
-0,5
0,0
0,5
1,0
Dimensin 1
Figura E1.20
En cuanto al primer plano factorial, que forman los dos primeros ejes factoriales, estn
bien representados casi todas las marcas (salvo acaso Zara y Lois) Destacando Audi,
Volstwaguen, Kas, Pepsicola y Seat (calidad de representacin superior al 75%). Las
caractersticas estn tambin bien representadas en el primer plano factorial (salvo acaso
diferente y moderno) destacando confiable, econmico, elegante, divertido y amigable
(representacin superior al 75%)
Si observamos la situacin de las modalidades sobre el plano sobre el plano (figura E1.20)
vemos que los productos extranjeros de automviles (Audi, Volkswagen y Opel) Se asocian a las
45
caractersticas de fiabilidad y elegancia. Casera y Seat se caracterizan por ser productos clsicos
y econmicos. Las marcas de refrescos (Kas y Pepsicola) se identifican con los conceptos de
diversin, amistad o juventud. Esta zona tambin pertenece la modalidad suplementaria y tenda
estas mismas caractersticas. Los productos de moda Benetton y Levis se asocian con
caractersticas como la creatividad, la solidaridad
producto Cocacola se asocia con caractersticas propias de los dos grupos antes citados.
46
47
con valores fraccionarios, agrupando sus valores en categoras con una distribucin
casi normal y convertir de forma automtica los valores de las variables de cadena en
enteros positivos. Se pueden especificar otros esquemas de discretizacin.
Procedimientos
relacionados.
Para
dos
variables,
el
anlisis
de
Mostrar detalles
48
Pulse en Definir.
Mostrar detalles
49
Para estudiar cmo funciona el anlisis de correspondencia mltiple, se usar los datos
de Hartigan1. Este conjunto de datos contiene informacin sobre las caractersticas de
los pernos, clavos, tornillos, y tacos. El siguiente cuadro muestra el nombre de las
variables, etiquetas de las variables, y el valor asignado a las categoras de cada
variable en el conjunto de datos.
Nombre de
variable
Etiqueta de
Valor de los niveles
Variable
Rosca
Rosca
Forma de la
cabeza
Muesca de
la cabeza
Forma de
punta
Cobre
Longitud en
milmetros
Cabeza
Muesca
Punta
Cobre
Long
Objeto
Objeto
Hartigan, J.A. 1975. Clustering Algorithms. New Cork: John Wiley and Sons.
50
Seleccione
Conjunto.
Un
Pulse en Definir.
Si lo desea, puede especificar variables suplementarias, que sern ajustadas sobre la solucin
encontrada, o variables de etiqueta para los grficos.
Select Thread through Length in half-inches as analysis variables.
Select object as a labeling variable.
51
Seleccione a menos
dos
variables
de
anlisis (pudiendo ser
todas) y trasldelo al
lado derecho en el
grupo
Anlisis
de
variables
Seleccione objeto como
una variable de etiquetado.
Haga Click en Objeto en
el grupo Grficos
Pulse en Aceptar.
52
Click
Click
53
RESULTADOS OBTENIDOS
54
diferentes variables se acercan si pertenecen a los mismos objetos (es decir, dos
objetos que tienen los mismos resultados para una variable tambin resultaran muy
cerca unos de otros para el resto de variables en la solucin).
Dimensin
1
2
Total
Media
a
Alfa de
Cronbach
0.878
0.657
0.796
Varianza explicada
Total (Autovalores)
Inercia
% de la varianza
3.727
0.621
62.123
2.209
0.368
36.809
5.936
0.989
2.968
0.495
49.466
Despus de examinar el resumen del modelo, debemos mirar los resultados de los
objetos. Podemos especificar la etiqueta de una o ms variables en el grfico de
puntuaciones de objeto. Cada variable de etiquetado produce una trama etiquetada con
los valores de esa variable. Vamos a echar un vistazo al grfico de puntuaciones de
las etiquetas de la variable objeto. Este es slo un caso de identificacin de la variable
y no se utiliz en ningn clculo.
La distancia de un objeto a la variacin de origen refleja el "promedio" de respuesta
patrn. Este patrn de respuesta promedio corresponde a la categora ms frecuente
para cada variable. Objetos con muchas de las caractersticas correspondientes a las
categoras ms frecuentes se encuentran cerca del origen. En cambio, los objetos de
caractersticas nicas que se encuentran lejos del origen.
Examinando el grfico, se puede ver que la primera dimensin (el eje horizontal)
discrimina los tornillos y pernos (que tienen rosca o hilo) de los clavos y tachuelas (que
no tienen rosca o hilos). Esto es fcilmente visto en el grfico los tornillos y pernos
estn en un extremo del eje horizontal y tachuelas (tacos) y clavos en la otra. En menor
medida, tambin la primera dimensin separa los tornillos (que tienen extremo plano)
de todos los dems (que tienen extremo en punta).
La segunda dimensin (el eje vertical) parece tornillo1 y clavo6 separado de todos los
otros objetos. Qu tienen en comn tornillo1 y clavo6?, sus valores de la variable
longitud, que son los objetos ms largos. Adems, tornillo1 se encuentra mucho ms
55
lejos del origen que los otros objetos, lo que sugiere que, en su conjunto, muchas de
las caractersticas de este objeto no son compartidos por los otros objetos.
El grfico de puntuaciones de los objetos es particularmente til para la deteccin de
valores atpicos. El tornillo1 se considera como atpico. Ms adelante podemos ver lo
que ocurre si separamos este objeto.
Antes de examinar el resto de grficos de las puntuaciones de los objetos, vamos a ver
si las medidas de discriminacin estn de acuerdo con lo que hemos dicho hasta
ahora. Para cada variable, una medida de discriminacin, que puede considerarse
como un componente de la carga al cuadrado, se calcula para cada dimensin. Esta
medida es tambin la diferencia de las variables cuantificadas en esa dimensin. Tiene
un valor mximo de 1, que se logra si los objetos se dividen en las puntuaciones de los
56
grupos mutuamente excluyentes y las puntuaciones de todos los objetos dentro de una
categora son idnticos. (Nota: Esta medida podra tener un valor superior a 1 si faltan
datos.)
Las medidas grandes de discriminacin corresponden a una gran dispersin entre las
categoras de la variable y, por consiguiente, indican un alto grado de discriminacin
entre las categoras de una variable a lo largo de esa dimensin.
El promedio de las medidas de discriminacin para cualquier dimensin es igual al
porcentaje de variacin que represent dimensin. En consecuencia, las dimensiones
estn ordenadas segn el promedio de la discriminacin. La primera dimensin tiene la
mayor media de la discriminacin, la segunda dimensin tiene el segundo mayor
promedio de la discriminacin, y as sucesivamente, de todas las dimensiones en la
solucin.
57
58
La longitud (en mm.) tiene cinco categoras, tres de las cuales se agrupan cerca de la
parte superior del grfico. Las otras dos categoras se encuentran en la mitad inferior
del grfico, con la categora 64 mm. muy lejos del grupo. La gran discriminacin de
longitud a lo largo de dimensin 2 es un resultado de esta una categora muy diferente
de las dems categoras de longitud. Del mismo modo, en la forma de punta, la
categora ESTRELLA est muy lejos de las otras categoras y el rendimiento de una
gran medida de la discriminacin a lo largo de la segunda dimensin. Estos patrones
no pueden ser ilustrados en un grfico de las medidas de discriminacin.
59
Un mayor conocimiento de los datos que pueden obtenerse mediante el examen de los
resultados de los grficos objeto de la etiqueta de cada variable. Idealmente, objetos
similares deben formar grupos exclusivos, y de esos grupos debera ser mucho unos
de otros.
La trama etiquetada con Rosca muestra que la primera dimensin separa SI ROSCA y
No ROSCA perfectamente. Todos los objetos con ROSCA tienen resultados negativos
objeto, mientras que todos los objetos NO ROSCADOS tienen resultados positivos.
Aunque las dos categoras no forman grupos compactos, la perfecta diferenciacin
entre las categoras que por lo general se considera un buen resultado.
60
La trama etiquetada con la forma de la punta, muestra que esta variable discrimina en
ambas dimensiones. El grupo de objetos con forma de punta PLANA aparecen juntos
en la esquina inferior derecha del grfico, mientras que el grupo de objetos cuya forma
de cabeza es Copa aparecen agrupados en la parte superior derecha. Los objetos con
forma de cabeza en CONO se encuentran en la parte superior izquierda. Sin embargo,
estos objetos son ms diseminada que de los otros grupos y, por lo tanto, no son tan
homogneos. Por ltimo, la forma de cabeza CILINDRICA de objetos no puede
separarse de los objetos con forma de cabeza RONDA, que se encuentran en la
esquina inferior izquierda de la parcela.
61
62
El grfico con las etiquetas de Longitud-mm. en la mitad indica que esta variable no
discrimina en la primera dimensin. Sus cuadros no tienen agrupacin cuando se
proyecte sobre una lnea horizontal. Sin embargo, Longitud-mm. en la mitad no
discriminar en la segunda dimensin. Los objetos ms cortos corresponden a
resultados positivos, y los objetos ms grandes corresponden a resultados negativos.
63
La trama etiquetada con cobre demuestra que esta variable tiene categoras que no se
pueden separar muy bien en la primera o segunda dimensiones. Los escores de los
objeto se encuentran ampliamente distribuidos en todo el espacio. Los objetos de cobre
no puede diferenciarse de los objetos No cobre.
64
REGRESIN NO LINEAL
Manuel Hurtado S.
65
Datos. Las variables dependiente e independientes deben ser cuantitativas. Las variables
categricas, como la religin, la mayora de edad o el lugar de residencia, han de recodificarse
como variables binarias (dummy) o como otro de los tipos de variables de contraste.
Supuestos. Los resultados son vlidos slo si se ha especificado una funcin que describa con
precisin la relacin entre las variables independientes y las dependientes. Adems, la eleccin
de buenos valores iniciales es muy importante. Incluso si se ha especificado la forma funcional
correcta para el modelo, si no utiliza valores iniciales adecuados, puede que su modelo no logre
converger o puede que obtenga una solucin que sea ptima localmente en vez de una que sea
ptima globalmente.
Procedimientos relacionados. Muchos modelos que en un principio parecen ser no lineales
pueden ser transformados en un modelo lineal, el cual pueda ser analizado usando el
procedimiento Regresin lineal. Si no est seguro de cul es el modelo adecuado, el
procedimiento Estimacin curvilnea puede ayudarle a identificar relaciones funcionales tiles
que estn presentes en los datos.
66
construir la suma de una serie de trminos, uno para cada condicin. Cada trmino se
compone de una expresin lgica (entre parntesis) multiplicada por la expresin que
resultar cuando esa expresin lgica es verdadera.
Por ejemplo, considere un modelo segmentado que sea igual a 0 para X<=0, X para
0<X<1 y 1 para X>=1. La expresin para este ejemplo es:
(X<=0)*0 + (X>0 & X < 1)*X + (X>=1)*1.
Todas las expresiones lgicas entre parntesis deben ser evaluables como 1
(verdadero) o 0 (falso). As:
Si X<=0, la anterior se reduce a 1*0 + 0*X + 0*1 = 0.
Si 0<X<1, se reduce a 0*0 + 1*X + 0*1 = X.
Si X>=1, se reduce a 0*0 + 0*X + 1*1 = 1.
Se pueden construir con facilidad ejemplos ms complicados reemplazando diferentes
expresiones lgicas y expresiones de resultado. Recuerde que las desigualdades
dobles, como 0<X<1, deben escribirse como expresiones compuestas, de la forma
(X>0 & X < 1).
Se pueden utilizar variables de cadena dentro de las expresiones lgicas:
(ciudad='Madrid')*costliv + (ciudad='Guadalajara')*0.59*costliv
Esto da lugar a una expresin (el valor de la variable costliv) para los madrileos y a
otra (el 59% de ese valor) para los habitantes de Guadalajara. Las constantes de
cadena deben ir entre comillas o apstrofos, como se muestra aqu.
67
parmetros que hayan sido definidos aparecern (con sus valores de inicio) en la lista
Parmetros del cuadro de dilogo principal.
Nombre. Debe especificarse un nombre para cada parmetro. Debe ser un nombre de
variable de SPSS vlido y debe ser el nombre utilizado en la expresin del modelo del
cuadro de dilogo principal.
Valor inicial. Permite especificar un valor de inicio para el parmetro, preferiblemente lo
ms prximo posible a la solucin final esperada. Los valores iniciales no adecuados
pueden dar como resultado un fallo de convergencia o una convergencia sobre una
solucin local (en vez de global) o fsicamente imposible.
Usar los valores iniciales del anlisis previo. Si ya se ha ejecutado una regresin no
lineal desde este cuadro de dilogo, puede seleccionar esta opcin para obtener los
valores iniciales de los parmetros a partir de sus valores en la ejecucin previa. De
esta forma podr continuar buscando cuando el algoritmo est convergiendo
lentamente. Los primeros valores iniciales seguirn apareciendo en la lista Parmetros
del cuadro de dilogo principal.
Nota: Esta seleccin persistir en este cuadro de dilogo durante el resto de la sesin.
Si cambia el modelo, asegrese de desactivarla.
Regresin asinttica
b1 + b2 *exp( b3 * x )
Regresin asinttica
b1 ( b2 *( b3 ** x ))
68
Nombre
Densidad
( b1 + b2 * x )**(1/ b3 )
Gauss
Gompertz
b1 *exp( b2 * exp( b3 * x ))
Johnson-Schumacher
b1 *exp( b2 / ( x + b3))
Log-modificado
( b1 + b3 * x ) ** b2
Log-logstico
b1 + b2 *exp( b3 * x )
Michaelis Menten
b1* x /( x + b2 )
Morgan-Mercer-Florin
( b1 * b2 + b3 * x ** b4 )/( b2 + x ** b4 )
Peal-Reed
Razn de cbicas
Razn de cuadrticas
( b1 + b2 * x + b3 * x **2)/( b4 * x **2)
Richards
Verhulst
b1 /(1 + b3 * exp( b2 * x ))
Von Bertalanffy
Weibull
b1 b2 *exp( b3 * x ** b4 )
Densidad de rendimiento
(b1 + b2 * x + b3 * x **2)**(1)
69
Puede escribir una expresin en el campo Funcin de prdida definida por el usuario, o
bien pegar en el campo los componentes de la expresin. Las constantes de cadena
deben ir entre comillas o apstrofos y las constantes numricas deben escribirse en
formato americano, con el punto como separador de la parte decimal.
Para definir una funcin de prdida
Elija en los mens:
Analizar
Regresin
No lineal
En el cuadro de dilogo Regresin no lineal, seleccione uno o ms parmetros y pulse en
Prdida.
Puede escribir una expresin en el campo Funcin de prdida definida por el usuario, o
bien pegar en el campo los componentes de la expresin.
70
antes de realizar un paso, de modo que se puedan utilizar restricciones lineales para
omitir los pasos que pueden provocar desbordamientos. Las expresiones no lineales se
evalan despus de realizar el paso.
Cada ecuacin o desigualdad requiere los siguientes elementos:
Una expresin que incluya al menos un parmetro del modelo. Escriba la expresin o
bien utilice el teclado, que le permita pegar nmeros, operadores o parntesis en la
expresin. Puede escribir el parmetro o parmetros requeridos junto con el resto de la
expresin o bien pegarlos de la lista de Parmetros situada a la izquierda. No se pueden
usar variables ordinarias en una restriccin.
Uno de los tres operadores lgicos <=, =, o bien >=.
Una constante numrica, con la que se compara la expresin utilizando el operador
lgico. Escriba la constante. Las constantes numricas deben escribirse en formato
americano, con el punto como separador de la parte decimal.
71
Una vez definida cada restriccin, pulse en Aadir para aadirla a la lista de restricciones.
72
73
Nombrar un archivo del cual leer valores iniciales para las estimaciones de los
parmetros.
Especificar ms de una instruccin de modelo y de funcin de prdida. Con ello se
facilita la tarea de especificacin de un modelo segmentado.
Suministrar sus propias derivadas en vez de utilizar las calculadas por el programa.
Especificar el nmero de muestras bootstrap que se van a generar.
Especificar criterios de iteracin adicionales, incluyendo el establecer un valor crtico
para la comprobacin de las derivadas y definir un criterio de convergencia para la
correlacin entre los residuos y las derivadas.
Los criterios adicionales para el comando CNLR (regresin no lineal restringida) permiten:
Especificar una tolerancia de colapso para determinar si los valores iniciales estn dentro de los
lmites especificados.
74