You are on page 1of 6

1

MÁSTER UNIVERSITARIO EN ESTADÍSTICA APLICADA.


CURSO: ANÁLISIS DE DATOS. TECNICAS APLICADAS A DATOS DE PROXIMIDAD
Resumen del texto: Multidimensional Scaling Using Majorization: SMACOF in R
Trabajo Final
Profesor José Fernando Vera

INTRODUCCIÓN:
El siguiente trabajo muestra un resumen de las metodologías de los problemas de escalamiento
multidimensional, teniendo en cuenta los algoritmos de mayorizacion. Se describen las principales
estrategias para resolver problemas del MDS a través de SMACOF. Se toma como referencia el
texto “Multidimensional Scaling Using Majorization: SMACOF in R” (Jan de Leew)

SMACOF EN R
¿Qué es el escalamiento multidimensional?
Son los métodos para descubrir estructuras ocultas en datos multidimensionales.
¿Dónde se aplica?
Las principales áreas de aplicación son:
 Ciencias Sociales
 Marketing
 Bioetría
 Ecología
En relación con la introducción al tema d escalamiento multidimensional se encuentra en los textos
de kuskal y Deseo (1978) y para en relación con temas más avanzados se encuentran en Borg
Groenen (2005) Cox y Cox (2001).

El escalado clásico del MDS. Está basado en distancias euclidianas, y las técnicas del MDS, se
integran en las siguientes taxonomías:
 MDS de via 1 VS multidirección., como por ejemplo las medidas de diferentes repeticiones.
 MDS de segundo modo VS multimodo, las diferencias de K son cualitativamente
diferentes.
El MDS métrico y MDS no métrico, ambas determinan la función objetivo de perdida.
La “suma de cuadrados” denomina el mismo estrés
Se minimiza el estrés con SMACOF.
Extensiones del enfoque de SMACOF respecto a:
 Restricciones de la configuración

Análisis de datos, técnicas aplicadas a datos de proximidad Máster en estadística aplicada


2

 Diferencias individuales
 Matrices angulares y superficies cuadráticas.
Los inventores del MDS son Torgerson (1958) y Shepard (1962)
las soluciones en MDS cayeron cerca de variedades cuadráticas como círculos, elípses y
parábolas.

Teoria básica de la mayorización:


 ¿Qué es mayorizacion?
Es una “receta” para construir algoritmos de optimización, ayda a optimizar o generalizar las
fnciones objetivas.
Esta teoría fue introducida por Deleeuw (1977) y Deleeuw y Heiser (1980),

Definiciones de Majorización:
Desde el punto de vista formal, la mayorizacion requiere de lassiguientes definiciones.
Sea ( ) una función para ser minimizada, la principal mayorizacion se sugiere concotrar una
simple y manejable función ( ) que se centra en ( )
( ) ( ) (1)
Donde es un valor fijo llamado “punto de apoyo”
La función sustituta para la superficie Sea ( ) ( )m conduce a la cadena de la desigualdad
de Sandwich:
( ) ( ) ( ) ( ) (2)

El procedimiento iterativo consiste en las siguientes pasos:


 Elija el valor numérico de
 Actualización de ( ) ( )
 Parar si ( ) ( ( )) si y solo si ( ) y y := x(t)
Se procede con el paso 2.

Eeste procedimiento puede ser utilizado para espacios multidimensionales y se puede prolongar la
desigualdad del Sandwich y se sostiene en el segundo paso, se puede utilizar para minimizar la
función objetivo correspondiente.

Análisis de datos, técnicas aplicadas a datos de proximidad Máster en estadística aplicada


3

Metodología básica de SMACOF


SMACOF para matrices de disimilaridad, los datos de entrada de MDS son matrices nxn
, la cual no es negativa y es hueca, es decir con diagonal cero.

El problema lo podemos resolver localizando puntos bajo dimensional el espacio


euclidiano, las distancias entre los puntos aproximados dadas las dsimilaidades .

( ) √∑ ( ) (3)

S=1 , … , p es el número de dimensiones en el espacio euclidiano.


Ahora bien, se define el estrés como:

( ) ∑ ( ( )) ( )

W es una matriz nxn, es simétrica, no negativa y hueca. Se utiliza para imponer estructuras de valor
faltantes.
si se conoce
si no se conoce a

Otros tipos de estructura con la restricción :

( ) ∑ ∑ ( ) ∑ ( ) ( ) ( ) ( )

La siguiente expresión

∑ ( )

Se entiende como la suma ponderada de la fila y columna centradas las matrices


Para la representación de p(x) se define la matriz

(7)
donde

Análisis de datos, técnicas aplicadas a datos de proximidad Máster en estadística aplicada


4

Ahora bien, la descomposición del estrés se convierte en:


( ) ( ) ( )

Definiendo el punto de apoyo de Y, la cual es una matriz de configuraciones nxp

(9)
Con

La desigualdad de Cauchy-Schuartz implica que la majorizacion del estrés se defina como:

(10)

Smacof con restricciones en las configuraciones


Básicamente, el paquete smacof permite al usuario implementar restricciones de configuración
arbitrarias especificando una función de actualización correspondiente para X

Se define la restricción lineal más simple de la forma , en este caso Z es una matriz
predictora nxq ( )

En este caso el estrés se define igual que 4

La trasnformacion de Guttman es ( ).

La ecuación 10 se reescribe como

(11)

Este segundo término denota


la falta de ajuste de la
configuración y se convierte
en cero si no hay restricciones

Configuración del problema de proyección

(12)

Análisis de datos, técnicas aplicadas a datos de proximidad Máster en estadística aplicada


5

( )
Proyectando a en la variedad de configuraciones restringidas

(13)

Con

Smacof para diferencias individuales

Extensión natural del conjunto clásico del MDS. El enfoque clásico para el calculo de MDS es
INSCAL (calculo de diferencias individuales Carrollo y Chang 1970)

Solución de matrices en una diagonal de bloque estructura:

(14)

Las distancias se denotan , luego se define como la Supermatriz de configuración

(15)

( ) se puede escribir como

(16)

La distancia euclidiana ponderada se puede expresar

(17)
Z es la matriz n × p de coordenadas del llamado espacio de estímulo grupal o espacio común.
Si para todos k, obtenemos el llamado modelo de identidad.

Problema de proyección de configuración:

(18)

Análisis de datos, técnicas aplicadas a datos de proximidad Máster en estadística aplicada


6

Smacof para matrices de disimilaridad rectangular


El estrés puede ser representado como:

(20)

Basado en la descomposición posición de X, V se puede dividir en:

(21)

Y B(x) como:

(22)

Matriz de soporte de Y

(23)

Análisis de datos, técnicas aplicadas a datos de proximidad Máster en estadística aplicada

You might also like