You are on page 1of 169

Clasificacin con Anlisis Discriminante

Anlisis Multivariante: Investigacin que da Resultados Ing. Amir Madrid Garzn

Aplicaciones
Fiel o no a una marca Me suscribira o no a un determinado peridico Comprador / No comprador Apoya o no apoya Televidente o no televidente

Clasificacin de objetos en grupos


En calidad de consumidores seguramente habremos sido clasificados en grupos muchas veces, a menudo por parte de gente que sin saberlo est aplicando el anlisis discriminante. Por ejemplo, sin duda ya habremos pasado por una experiencia de categorizacin semejante a la que tuvieron las siguientes personas:

Ejemplo 1
Alicia Rodrguez y algunas amigas fueron a un restaurante de lujo a celebrar el final del primer ao de universidad. La jefa de meseras, al darse cuenta de las clientes son universitarias y que no visten ropa cara, las acomoda en un rincn con mucha luz situado entre la entrada a la cocina y los baos de los caballeros. Quiz se haya equivocado al clasificar a Alicia y a sus amigas en la categora de clientes que gastan poco y que dan propinas pequeas.

Ejemplo 2
Rodolfo Ramrez, luego de hacer la solicitud del seguro del automvil, se da cuenta de que la pliza anual le costar casi lo mismo que el coche. Aunque en los cinco aos que lleva conduciendo nunca ha tenido un accidente ni una sola infraccin, la compaa anota que tiene menos de 25 aos, no est casado y no ha recibido cursos de manejo.

Ejemplo 3
Alfredo Montealbn, un mariscal de campo seleccionado para el equipo de estrellas de la liga colegial, no recibe ninguna llamada durante el reclutamiento de jugadores colegiales para la liga profesional. El servicio de reclutamiento de los equipos profesionales afirma que este jugador no tendra xito en el ftbol profesional por se de baja estatura.

Nos guste o no, los individuos y las empresas constantemente clasifican a las personas en grupos basndose en variables como la edad, escolaridad, ingresos, estado civil, peso fsico y talla, tipo de automvil que usan, indumentaria y promedio de puntos de calidad. Si bien quiz no se aplique especficamente el anlisis discriminante, los principios en que se funda esta tcnica matemtica estn presentes, es decir, a partir de un grupo de mediciones observadas podemos tratar de clasificar un individuo u objeto en un grupo.

Identificacin de las variables descriptivas que mejor determinan la pertenencia al grupo.


Se examinan a miembros de grupos conocidos, con objeto de averiguar cules variables nos ayudan ms a diferenciar entre los miembros de cada uno. Por ejemplo, si trabajamos en prstamos para los consumidores, nos gustara identificar las variables que mejor discriminan entre
a) Prestatarios anteriores que han pagado su deuda a tiempo b) Prestatarios anteriores que no la han pagado

Riesgo crediticio (Prstamos)


Un ejecutivo de prstamos de una compaa hipotecaria debe decidir si aprueba un prstamo hipotecario a un solicitante. Esta decisin se toma determinando si las caractersticas del solicitante se apegan ms a las de personas que en el pasado pagaron debida y oportunamente sus prstamos que a las de aquellas que no cumplieron con los pagos. La informacin acerca de estos dos grupo, disponible a partir de registros pasados, incluira variables de pronstico como edad, ingresos, aos viviendo en el presente domicilio, aos en el trabajo actual, deudas pendientes, estado civil, estado de salud y posesin de ciertos bienes duraderos.

Por qu quiebran los negocios?


Un investigador interesado en quiebras de negocios tal vez pueda agrupar las empresas de acuerdo a si quebraron o no con el paso del tiempo, con base en variables de pronstico como ubicacin, razones financieras o cambios en la administracin. El reto consiste en encontrar variables discriminantes que puedan usarse en una ecuacin de pronstico que produzca una asignacin de los individuos a los grupos y que sea mejor que una asignacin al azar.

Servicio de Administracin Tributaria


Utiliza un anlisis discriminante para comparar las declaraciones seleccionadas con las devoluciones compuestas hipotticas del contribuyente normal (para distintos niveles de ingreso) con el fin de identificar las devoluciones y reas ms prometedoras para la auditora.

Las revistas
Se cuenta con informacin sobre la edad e ingresos referente a Suscriptores y no suscriptores de tres revistas
1. 2. 3. Buena condicin fsica despus de los 50 Aviso mensual de impuestos Revista de juegos de video

Anlisis Discriminante
til si la muestra total puede dividirse en grupos basndose en una variable de criterio caracterizada por varias categoras conocidas. Muchos problemas en marketing implican la investigacin de diferencias entre grupos de individuos. Se usa si la nica variable de criterio es dicotmica (es decir, comprador, no comprador) o multidicotmica ( es decir, alto-medio-bajo) y por tanto no mtrica.
Cmo sern las ventas potenciales (buenas o malas) en un territorio dado de mercado, con base en ciertas evaluaciones sobre el ingreso personal disponible por territorio, densidad de poblacin, nmero de puntos de venta al detalle y dems?

Un buen vendedor
El gerente de ventas de la CompaaAlloy Steel est tratando de identificar qu determina a un buen vendedor, es decir, por qu algunos vendedores cumplen o rebasan sus cuotas y otros no. Al tratar de estudiar este asunto, el gerente de ventas recopila datos sobre los veinte vendedores de la compaa, incluyendo el cumplimiento o incumplimiento con la cuota, el nmero de aos de experiencia en ventas de acero de aleacin y el nmero de aos de educacin tcnica formal. El gerente de ventas reuni los datos de experiencia y educacin porque pens que le podran ayudar a identificar las caractersticas de un buen vendedor.

En este conjunto de datos hay tres elementos de informacin sobre cada vendedor: una variable de criterio categrica, la cual es si cumpli o no con su cuota este ao, y dos variables de pronstico mtricas.
El nmero de aos de experiencia en ventas de acero de aleacin El grado de educacin tcnica formal

El gerente de ventas de la Compaa puede preguntar


Qu tan bien se ajusta el discriminante a los datos? Qu tan bueno es como pronstico?

Aplicaciones
En trminos de caractersticas demogrficas, cul es la diferencia entre los clientes que son leales a la tienda y los otros? El consumo de alimentos congelados difiere entre los consumidores de refrescos frecuentes, moderado y espordicos? Qu caractersticas de estilo de vida distinguen a los compradores de abarrotes que se fijan en los precios de los que se fijan en la marca? Cules son las caractersticas demogrficas que diferencian entre los clientes habituales de una cadena de supermercados y los clientes ocasionales? De acuerdo a sus perfiles demogrficos y psicogrficos, Cules son las caractersticas que distinguen a los innovadores de los no innovadores?

Aplicaciones
Difiere la atencin a los medios en los segmentos de un mercado? En trminos de estilo de vida, cules son las diferencias entre los clientes constantes de las cadenas regionales de tiendas departamentales y los clientes de las cadenas nacionales? Cules son las caractersticas de los consumidores que responden a los cuestionarios por correo? Cmo se diferencian, en sus niveles de lectura de ciertas revistas, los encuestados que muestran alto inters en un nuevo conjunto de descripciones conceptuales, de los que muestran poco inters? Los vendedores de xito hacen ms visitas, ocupan ms tiempo en las ventas y recorren ms kilmetros que aquellos sin xito?

Objetivo de ADM
IDENTIFICAR y entender cuales son las diferencias (caractersticas distintivas) de los individuos en cada grupo PRONOSTICAR la probabilidad de que una persona pertenezca a una clase o grupo particular de los que se conocen dichas caractersticas distintivas.

ANLISIS DISCRIMINANTE
Tcnica de clasificacin para agrupar a los clientes y prospectos en dos o ms categoras diferentes definidas previamente. Permite asignar un individuo a un grupo definido a priori en funcin de una serie de caractersticas del mismo o de las respuestas dadas a una serie de preguntas (escalas de calificacin)
NO REQUIERE DE NINGN CUESTIONARIO ESPECIAL

Discriminant Analysis
The purpose of discriminant analysis is to correctly classify observations or people into homogeneous groups. The independent variables must be metric and must have a high degree of normality. Discriminant analysis builds a linear discriminant function, which can then be used to classify the observations. The overall fit is assessed by looking at the degree to which the group means differ (Wilkes Lambda or D2) and how well the model classifies. To determine which variables have the most impact on the discriminant function, it is possible to look at partial F values. The higher the partial F, the more impact that variable has on the discriminant function. This tool helps categorize people, like buyers and nonbuyers.

ANLISIS DISCRIMINANTE EN LA PRCTICA


What characteristics best distinguish my various customer segments? In marketing research this analytical technique is the study of the differences between two or more groups of objects with respect to several variables simultaneously. The objects are individual products or services and the variables are usually descriptive ratings of each of these products or services on several attributes. It is commonly linked to the use of perceptual mapping. A major application in marketing is to discern which attributes best distinguish or discriminate among the various objects.

Explicar por qu los encuestados pertenecen a un cierto grupo Clasificar nuevos encuestados con base en sus calificaciones Determinar cules clientes son propensos a comprar un producto de una compaa. Decidir si un banco debe otorgar un crdito a una nueva compaa. Identificar pacientes que pueden estar en riesgo por problemas mdicos.

CUNDO DEBEMOS UTILIZAR EL ANLISIS DISCRIMINANTE?


Mapas perceptuales de posicionamiento.
tiles al revelar visualmente las posiciones competitivas actuales de los jugadores principales en una categora de producto o servicio. Los tipos de productos o marcas son los grupos en la variable dependiente; las variables independientes son las calificaciones de desempeo de los atributos.

CUNDO DEBEMOS UTILIZAR EL ANLISIS DISCRIMINANTE?


Mapas de preferencias
Los tipos de productos o marcas son los grupos de la variable dependiente (como en los mapas anteriores), y las preferencias de productos o marcas son las variables independientes. Dos maneras: Pedir a los encuestados que ordenen los productos o marcas en trminos de una evaluacin general o frecuencia de uso. Basar las preferencias en las calificaciones generales.

CUNDO DEBEMOS UTILIZAR EL ANLISIS DISCRIMINANTE?


Mapas de actitudes
El anlisis indica cules actitudes son las ms propensas a poseer los usuarios o dueos de los productos o marcas. Los tipos de productos o marcas son los grupos de la variable dependiente (como en los mapas anteriores), y las calificaciones de los encuestados en los enunciados de las actitudes en cierta categora son las variables independientes.

CUNDO DEBEMOS UTILIZAR EL ANLISIS DISCRIMINANTE?


Mapas de Estilos de vida
El anlisis muestra cules actividades, intereses, opiniones, etc. Son las que estn ms asociados con los usuarios ms frecuentes de cada producto o marca. La variable dependiente consiste en los productos o marcas especficas; las variables independientes son las calificaciones de los encuestados sobre los enunciados de estilos de vida en general.

PREGUNTAS A RESPONDER
Administradores de ventas: Evaluar sus clientes prospectosCules son las caractersticas sociodemogrficas y psicogrficas, estilos de vida, etc. de los compradores de un producto determinado? Cules son las caractersticas demogrficas que diferencian entre los clientes habituales de una cadena de supermercados y los clientes ocasionales? Es distinto el estilo de vida de los compradores de productos de alimentacin sensibles al precio del estilo de vida de los sensibles a las marcas? En qu se diferencian los consumidores que han respondido positivamente a una campaa de marketing directo a los que no lo han hecho?

PREGUNTAS A REPONDER
Qu marca de coche es ms probable que compre un nuevo comprador en funcin de su perfil sociodemogrfico? Qu nivel de consumo de un producto (elevado, medio o bajo) es previsible que tengan los individuos recin incorporados al mercado en funcin de sus motivaciones de compra y utilizacin prevista del producto? Bancos y aseguradoras: En qu categora de riesgo crediticio se encuentra un cliente? En general, para discriminar diferentes grupos de individuos (personas fsicas, empresas, productos, etc.) a partir de una serie de variables independientes.

Ejemplos ilustrativos

Cereal
Deseamos saber si la cantidad de protena y vitamina D influye en las evaluaciones que hacen los consumidores de los cereales. A cada uno de los diez consumidores que evalan se les pide solamente clasificar el cereal en una de dos categoras: gustar versus disgustar. Los datos aparecen en el archivo cereal.sav Las variables de pronstico son: X1: la cantidad de protenas (en gramos) pro 2 onzas servidas, y X2: el % de requerimientos diarios mnimos de vitamina D por dos onzas servidas.

Grfico de dispersin de los datos


Notamos que se puede lograr una discriminacin perfecta con X1 si trazramos una lnea perpendicular al eje horizontal entre los valores de la escala 6 y 7. Por otra parte, no hay forma de que el uso de X2 sola nos condujera a separar los grupos. Dada esta imagen, no nos sorprendera que el mejor compuesto lineal resulte en favorecer X1 con un peso considerablemente mayor que el que X2 recibe.

Por qu no usar X1 sola, en vez de un compuesto de X1 y X2?


1. Los datos de la tabla representan slo una muestra; es muy posible que observaciones adicionales demuestren que X1 sola no efectuar una discriminacin perfecta entre los dos grupos. No hemos tomado explcitamente en consideracin ni la variabilidad sobre X1 versus X2 ni su correlacin. Una de las mejores caractersticas del AD es que todos los tres aspectos de los datos (centroide, varianza y correlacin) son considerados al desarrollar el compuesto lineal que separe al mximo los grupos.

2.

EJEMPLOS ILUSTRATIVOS
Un investigador educativo desea saber qu variables discriminan entre los graduandos de preparatoria que deciden
1. Ir a la Universidad 2. Ir a una escuela comercial o tcnica 3. No buscar ms educacin o entrenamiento.

Para este propsito el investigador podra recolectar informacin en numerosas variables previamente a la graduacin de los estudiantes. Despus de la graduacin, la mayora de los estudiantes caera naturalmente en alguna de estas tres categoras. El AD se puede usar para predecir cules son las variables que mejor predicen la prxima eleccin educativa de los estudiantes.
http://www.statsoft.com/textbook/stathome.html?stdiscan.html&1

EJEMPLOS ILUSTRATIVOS
Un investigador mdico puede recabar diferentes variables relacionadas con el background de sus pacientes para aprender cules variables predicen mejor si un paciente es propenso a
1. Recuperarse por completo 2. Recuperarse parcialmente 3. No poder recuperarse

Un bilogo puede registrar diferentes caractersticas de tipos (grupos) similares de flores, y luego realizar un AD para determinar el conjunto de caractersticas que permiten la mejor discriminacin entre los grupos.

EJEMPLO ILUSTRATIVO MKT


En un estudio de mercado cuyo objetivo consisti en determinar las caractersticas que diferencian entre los clientes actuales de una cadena de comida rpida y los que nunca han sido clientes de la cadena, se obtuvo informacin de 370 individuos, de edades comprendidas entre los 15 y los 50 aos, consumidores de comida rpida en los ltimos 3 meses.
1. 2. 3. 4. 5. 6. Dicotmica. Cliente de al cadena (1= S. 2= No) Tipo de comida rpida preferida (Likert 1 al 7) Importancia dada a las promociones y descuentos (1-9) Nmero de veces al mes que van a la comida rpida. Nmero de veces al mes que van a otro restaurante. Edad del consumidor (en aos)

La aplicacin de un anlisis discriminante permitir conocer si los clientes habituales de la cadena tienen un perfil distinto de los consumidores que nunca han sido clientes de la cadena y cules variables diferencian ms entre los dos grupos.

Objetivos del curso


1. Describir el concepto de anlisis discriminante, sus objetivos y sus aplicaciones a la investigacin de mercados. 2. Sintetizar los procedimientos para efectuar anlisis discriminante: formulacin del problema, estimacin de los coeficientes de la funcin discriminante, determinacin de la significancia, interpretacin y validacin. 3. Detallar el anlisis discriminante mltiple y su distincin del anlisis discriminante de dos grupos. 4. Explicar el anlisis discriminante progresivo y el procedimiento Mahalanobis.

Seguros y bancos
La tcnica del Anlisis Discriminante aplicada al sector asegurador se ha dado en llamar "Insurance Scoring". Consiste en utilizar la experiencia histrica de la empresa para disear un modelo, aplicable a nuevos clientes, que nos asigna cada cliente a una cierta categora con una cierta probabilidad, como por ejemplo predecir si un cliente ser rentable o no para la compaa de seguros anticipando el riesgo de siniestro, pudiendo as ajustar la prima de riesgo. (MODULO BASE) La tcnica del Anlisis Discriminante aplicada al sector bancario se ha dado en llamar "Credit Scoring ". Consiste en utilizar la experiencia histrica de la empresa para disear un modelo, aplicable a nuevos clientes, que nos asigna cada cliente a una cierta categora con una cierta probabilidad, como por ejemplo determinar la posibilidad de recobro de un cliente en base a ciertas variables como, salario, tiempo de amortizacin del prstamo, n de hijos, etc. (MODULO BASE)

Ejemplo 1
Un ejecutivo de prstamos de una compaa hipotecaria debe decidir si aprueba un prstamo hipotecario a un solicitante. Esta decisin se toma determinando si las caractersticas del solicitante se apegan ms a las de personas que en el pasado pagaron debida y oportunamente sus prstamos que a las de aquellas personas que no cumplieron con los pagos. La informacin acerca de estos dos grupos, disponible a partir de registros pasados, incluira factores como edad, ingresos, estado civil, deudas pendientes y posesin de ciertos bienes duraderos.

Ejemplo 2
En el proyecto de tienda departamental se hizo un anlisis discriminante de dos grupos para examinar si los entrevistados que estaban familiarizados con las tiendas (comparados con los que no lo estaban) asignaban una importancia relativa diferente a los ocho criterios de eleccin. La variable de criterio eran los dos grupos de familiaridad. Las variables de pronstico eran la importancia concedida a los ocho criterios de seleccin.

Resultados
La funcin discriminante fue significativa, seal de que haba diferencias importantes entre los dos grupos. En comparacin con los entrevistados que no estaban familiarizados, los entrevistados familiarizados concedan mayor importancia a la calidad de la mercanca, las polticas de devoluciones y cambios, el servicio del personal y las polticas de crdito y facturacin.

Ejemplo 3
Por trmino medio, las personas de los pases de zonas templadas consumen ms caloras por da que las de los trpicos, y una proporcin mayor de la poblacin de las zonas templadas vive en ncleos urbanos. Un investigador desea combinar esta informacin en una funcin para determinar cmo de bien un individuo es capaz de discriminar entre los dos grupos de pases. El investigador considera adems que el tamao de la poblacin y la informacin econmica tambin pueden ser importantes.

Resultados
El anlisis discriminante permite estimar los coeficientes de la funcin discriminante lineal, que tiene el aspecto de la parte derecha de una ecuacin de regresin lineal mltiple. Es decir, utilizando los coeficientes a, b, c y d, la funcin es: D = a * clima + b * urbanos + c * poblacin + d * producto interior bruto per capita Si estas variables resultan tiles para discriminar entre las dos zonas climticas, los valores de D sern diferentes para los pases templados y para los tropicales. Si se utiliza un mtodo de seleccin de variables por pasos, quizs no se necesite incluir las cuatro variables en la funcin.

Objetivos principales de AD
1. FUNCIONES DISCRIMINANTES (combinaciones lineales de variables de pronstico) que discriminan mejor entre categoras de la variable de criterio (grupos). DESCRIPCIN: Examinar si hay diferencias significativas entre los grupos en trminos de las variables de pronstico. IMPORTANCIA RELATIVA: Determinar qu variables de pronstico contribuyen o cuentan ms para explicar las diferencias entre grupos. PREDICCIN: Clasificar nuevos sujetos u objetos cuyos perfiles son conocidos, pero no su identidad, a uno los grupos. EXACTITUD: Evaluar la exactitud de la clasificacin.

2.

3.

4.

5.

El reto consiste en encontrar variables discriminantes que puedan usarse en una ecuacin de prediccin que produzca una asignacin de los individuos a los grupos y que sea mejor que una asignacin al azar.

Anlisis Discriminante
Es una tcnica para analizar datos cuando una variable de criterio es categrica y las variables de pronstico son de naturaleza de intervalo. Ejemplo:
Preferencia de una marca de PC (marca A, B o C) Calificaciones de los atributos de las PC en una escala de Likert de siete puntos.

Anlisis Discriminante
El anlisis discriminante resulta til para construir un modelo predictivo para pronosticar el grupo de pertenencia de un caso a partir de las caractersticas observadas de cada caso. El procedimiento genera una funcin discriminante (o, para ms de dos grupos, un conjunto de funciones discriminantes) basada en combinaciones lineales de las variables predictoras que proporcionan la mejor discriminacin posible entre los grupos. Las funciones se generan a partir de una muestra de casos para los que se conoce el grupo de pertenencia; posteriormente, las funciones pueden ser aplicadas a nuevos casos que dispongan de medidas para las variables predictoras pero de los que se desconozca el grupo de pertenencia.

Nota: La variable de agrupacin puede tener ms de dos valores. Los cdigos de la variable de agrupacin han de ser nmeros enteros y es necesario especificar sus valores mximo y mnimo. Los casos con valores fuera de estos lmites se excluyen del anlisis.

Semejanzas y diferencias entre ANOVA, Regresin y Discriminante


ANOVA REGRESIN DISCRIMINANTE

Semejanzas
# de variables dependientes (criterio) Una Una Una

# de variables independientes Diferencias

Varias

Varias

Varias

Naturaleza de las Mtrica variables dependientes Naturaleza de las variables independientes

Mtrica

Categrica Mtrica

Categrica Mtrica

Regresin vs Discriminante
La variable de criterio tiene una distribucin normal. Las variables de pronstico son fijas. Busca predecir el valor medio de la variable de criterio con base en los valores conocidos y fijos de las variables de pronstico. Las variables de pronstico tienen una distribucin normal. La variable de criterio es fija. Busca encontrar una combinacin lineal de variables de pronstico que maximice la discriminacin entre los grupos y minimice la probabilidad de clasificar incorrectamente a los individuos u objetos en grupos. Aplica una estrategia para encotnrar una media y clasificar con exactitud individuos u objetos en grupos.

Se hacen ciertos supuestos con el fin de generar estimaciones de parmetros que tengan propiedades estadsticas deseables.

Estadsticos
Para cada variable:
medias, desviaciones tpicas, ANOVA univariado.

Para cada anlisis:


M de Box, matriz de correlaciones intra-grupos, matriz de covarianzas intra-grupos, matriz de covarianzas de los grupos separados, matriz de covarianzas total. Para cada funcin discriminante cannica: autovalores, porcentaje de varianza, correlacin cannica, lambda de Wilks, chi-cuadrado.

Para cada funcin discriminante cannica:


autovalores, porcentaje de varianza, correlacin cannica, lambda de Wilks, chi-cuadrado.

Para cada paso:


probabilidades previas, coeficientes de la funcin de Fisher, coeficientes de funcin no tipificados, lambda de Wilks para cada funcin cannica.

Datos
La variable de agrupacin debe tener un nmero limitado de categoras distintas, codificadas como nmeros enteros. Las variables de pronstico que sean nominales deben ser recodificadas, mediante la creacin de nuevas variables, a valores numricos que correspondan en algn sentido a las categoras originales. En el caso de variables con dos categoras, sus valores se pueden recodificar a valores 0 y 1. el valor 1 indicar la presencia de la cualidad correspondiente a una de las dos categoras, y el 0, la ausencia de dicha cualidad (en consecuencia, la presencia de la otra).

Categora de referencia
Cuando una variable presente ms de dos categoras, debern generarse tantas variables como el total de categoras menos uno. Cada nueva variable tomar valor 1 para una determinada categora y 0 en el resto, de tal forma que los individuos en una misma categora tomarn valor 1 en una misma variable y 0 en el resto. La categora no considerada, o categora referencia, estar representada por el valor 0 en todas las nuevas variables. Mediante este esquema de codificacin, los coeficientes de las nuevas variables reflejarn el efecto de las categoras representadas respecto al efecto de la categora de referencia.

Supuestos
Las variables de pronstico o estn altamente correlacionadas entre s. La media y la varianza en una variable de pronstico no estn correlacionadas. La correlacin entre dos variables de pronstico es constante a travs de los grupos, (el experimento se realice en las mismas circunstancias y no debe haber diferentes fuentes de variacin que haga que los grupos sean diferentes). Los valores (objetos o sujetos) deben ser independientes. Los valores de las variables de pronstico deben tener una distribucin normal .

Supuestos
El procedimiento es ms efectivo cuando la pertenencia al grupo es una variable verdaderamente categrica; si la pertenencia al grupo se basa en los valores de una variable continua (por ejemplo, un cociente de inteligencia alto respecto a uno bajo), considere el uso de la regresin lineal para aprovechar la informacin ms rica ofrecida por la propia variable continua. Al llevar a cabo una clasificacin, se supone a priori, que el resultado obtenido es tan confiable como lo indica el porcentaje de clasificaciones correctas obtenidas en la etapa de validacin del modelo.

De la misma manera que el Anlisis Cluster, el objetivo del Anlisis Discriminante es la clasificacin de individuos en grupos. Sin embargo, tanto la tcnica como la informacin obtenida a travs de ambos mtodos es distinta. En el Anlisis Discriminante, el punto de partida es un colectivo de individuos clasificados en dos o ms grupos. De estos individuos se conoce el valor de un nmero determinado de variables. Puesto que se conoce la existencia de esos grupos, parece lgico pensar que existen variables cuyo valor determina la pertenencia del individuo a uno u otro grupo. Los objetivos del Anlisis Discriminante son: La identificacin de las variables que mejor discriminen entre los grupos y la evaluacin del poder discriminante de cada una de ellas. Asignar, con un cierto grado de riesgo, un individuo, que no forma parte de los datos iniciales, y del que se conoce el valor de las variables discriminantes, a uno de los grupos.

La seleccin de las variables discriminantes es el paso inicial de esta tcnica. Existen mtodos estadsticos que permiten detectar que variables discriminan mejor unos grupos de otros, y, aunque antes de realizar el anlisis se desconoce esta informacin, es conveniente introducir en el estudio todas las variables que pueden "explicar" la separacin de los individuos en los distintos grupos. Una vez que se han seleccionado las variables discriminantes, el objetivo a conseguir es la elaboracin de las funciones discriminantes, que son nuevas variables combinacin lineal de las anteriores. Los coeficientes de la funcin discriminante indican el peso de cada variable en la funcin discriminante, y, una vez obtenidos estos coeficientes, se podr asignar a cada individuo unos valores que permitirn asignarle a uno u otro grupo.

Anlisis Discriminante simple en SPSS


Dos grupos o categoras.

PROCEDIMIENTO
I. II. Formulacin del problema Estimacin de los coeficientes de la funcin discriminante. III. Determinacin de la significancia de la funcin discriminante. IV. Interpretacin de los resultados. V. Evaluacin de la validez del anlisis.

I. Planteamiento del problema


Identificar los Objetivos del anlisis.

Definir el Tamao de muestra total:


Por cada variable de pronstico debe haber por lo menos 20 encuestados para mantener resultados estables. Cuando los tamaos de los grupos o categoras son desiguales se requiere efectuar una ponderacin.
Calcular segn tamao de grupos

I. Planteamiento del problema


Identificar la Variable de criterio
Debe constar de dos, tres o mximo cuatro grupos o categoras Cuando tiene una escala de intervalo o de razn, primero debe convertirse en categoras. Opinin de marca, puede dividirse de una escala Likert de 7 puntos en las categoras de desfavorable (1,2,3), neutra (4) y favorable (5,6 y 7). Se puede graficar la distribucin de la variable dependiente y formar grupos del mismo tamao escogiendo puntos apropiados de divisin para cada categora.

I. Planteamiento del problema


Muestra de anlisis o de estimacin:
Parte de la muestra total que se toma para estimar la funcin discriminante. Aprox. 70% del total

Muestra de validacin o de retencin:


Parte de la muestra total que se toma para verificar los resultados de la muestra de estimacin. Aprox. 30% del total.

Validacin cruzada doble:


Cuando la muestra es bastante grande, puede dividirse a la mitad. Luego se intercambian las mitades y se repite el anlisis.

La muestra debe seguir la distribucin total de la muestra. La validacin debe realizarse varias veces y en cada una la muestra debe dividirse en diversas parte de anlisis y validacin.

I. Planteamiento del problema


Identificar las Variables de pronstico
Se eligen en base con un modelo terico o de investigaciones anteriores Investigacin exploratoria: Experiencia.

Visitantes de un centro vacacional


Objetivo: Determinar las caractersticas ms notables de las familias que han visitado cierto centro vacacional en los dos ltimos aos. Muestra total: 42 hogares Muestra de anlisis: 30 hogares Muestra de validacin: 12 hogares

Muestra de anlisis
Res m e ne s d e caso s V is ita al centro SI SI SI SI SI SI SI SI SI SI SI SI SI SI SI NO NO NO NO NO NO NO NO NO NO NO NO NO NO NO Ingreso f amiliar actual 50.2 70.3 62.9 48.5 52.7 75.0 46.2 57.0 64.1 68.1 73.4 71.9 56.2 49.3 62.0 32.1 36.2 43.2 50.4 44.1 38.3 55.0 46.1 35.0 37.3 41.8 57.0 33.4 37.5 41.3 Opinin de los viajes 5 6 7 7 6 8 5 2 7 7 6 5 1 4 5 5 4 2 5 6 6 1 3 6 2 5 8 6 3 3 Importanc ia de las vacac iones f amiliares 8 7 5 5 6 7 3 4 5 6 7 8 8 2 6 4 3 5 2 6 6 2 5 4 7 1 3 8 2 3 Tamao de la familia 3 4 6 5 4 5 3 6 4 5 5 4 6 3 2 3 2 2 4 3 2 2 3 5 4 3 2 2 3 2 Edad del jef e del hogar 43 61 52 36 55 68 62 51 57 45 44 64 54 56 58 58 55 57 37 42 45 57 51 64 54 56 36 50 48 42 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Muestra de validacin
Res m e ne s de casos Importanc ia de las vacaciones f amiliares 7 4 7 4 6 6 3 3 5 6 3 2

1 2 3 4 5 6 7 8 9 10 11 12

V is ita al centro SI SI SI SI SI SI NO NO NO NO NO NO

Ingreso f amiliar actual 50.8 63.6 54.0 45.0 68.0 62.1 35.0 49.6 39.4 37.0 54.5 38.2

Opinin de los viajes 4 7 6 5 6 5 4 5 6 2 7 2

Tamao de la familia 3 7 4 3 6 3 4 5 3 5 3 3

Edad del jef e del hogar 45 55 58 60 46 56 54 39 44 51 37 49

Variable de criterio o agrupacin


VISITA: Las familias que visitaron el centro vacacional en los dos aos anteriores fueron codificadas como 1. y las que no lo hicieron, como 2. Las muestras de anlisis y de validacin se equilibraron en trminos de VISITA.

Variables de pronstico
INGRESO: Ingreso familiar anual VIAJE: Opinin de los viajes (Likert 9 puntos). VACACIONES: Importancia concedida a las vacaciones familiares (Likert 9 puntos). TAMAO: Tamao de la familia EDAD: Edad del jefe del hogar

Introduccin de Variables
Men Analizar > Clasificar> Discriminante... Seleccione una variable de agrupacin con valores enteros y pulse en Definir rango para especificar las categoras de inters. Seleccione las variables independientes o de pronstico. (Si la variable de agrupacin no tiene valores enteros, la opcin Recodificacin automtica en el men Transformar crear una variable que los tenga).

Definir rango

Especifique los valores mnimo y mximo de la variable de agrupacin para el anlisis. Los valores mnimo y mximo deben ser nmeros enteros. Los casos con valores fuera de este rango no se utilizan en el anlisis discriminante, pero s se clasifican en uno de los grupos existentes a partir de los resultados que obtengan en el anlisis.

Seleccionar casos
Para seleccionar casos para el anlisis:
En el cuadro de dilogo Anlisis discriminante, seleccione una variable de seleccin. Pulse en Valor para introducir un nmero entero como valor de seleccin.

Slo se utilizan los casos con el valor especificado en la variable de seleccin para derivar las funciones discriminantes. Tanto para los casos seleccionados como para los no seleccionados se generan resultados de clasificaciones y estadsticos. Este proceso ofrece un mecanismo para clasificar casos nuevos basados en datos previos o para dividir los datos en subconjuntos de anlisis y de validacin para realizar procedimientos de validacin en el modelo generado.

II. Estimacin de los coeficientes de la funcin discriminante.


Mtodo directo: Introducir simultneamente todas las variables de pronstico que satisfacen el criterio de tolerancia, cualquiera que sea su poder de discriminacin. Apropiado si, a partir de investigaciones anteriores o de un modelo terico, el investigador quiere que la discriminacin se base en todas las variables de pronstico.

Mtodos de estimacin
Mtodo progresivo (por pasos): Utiliza el anlisis por pasos para controlar la entrada y la salida de variables de pronstico, las cuales se agregan en secuencia segn su capacidad de discriminar entre grupos. Apropiado cuando el investigador quiere elegir un subconjunto de variables para incluirlas en la funcin discriminante.

Resumen del procesamiento para el anlisis de casos


Res um e n de l proce sam ie nto para el anlis is de casos Casos no ponderados V lidos Ex cluidos Cdigos de grupo para perdidos o f uera de rango Perdida al menos una variable dis criminante Perdidos o f uera de rango ambos, el c digo de grupo y al menos una de las variables disc riminantes . No selec cionados Total ex cluidos Casos Totales N 30 0 0 Porcentaje 71.4 .0 .0

.0

12 12 42

28.6 28.6 100.0

Botn Estadsticos

Descriptivos
Medias.
Muestra la media y desviacin tpica totales y las medias y desviaciones tpicas de grupo, para las variables de pronstico.

ANOVAs univariados
Realiza un ANOVA de un factor sobre la igualdad de las medias de grupo para cada variable de pronstico.

Test M de Box.
Contraste sobre la igualdad de las matrices de covarianza de los grupos. Para tamaos de muestra suficientemente grandes, un valor de p no significativo quiere decir que no hay evidencia suficiente de que las matrices difieran. Esta prueba es sensible a las desviaciones de la normalidad multivariada.

Medias y desviaciones estndar.


Es tadsticos de grupo N v lido (s egn lista) No ponderados Ponderados 15 15.000 15 15.000 15 15 15 15 15 15 15 15 30 30 30 30 30 15.000 15.000 15.000 15.000 15.000 15.000 15.000 15.000 30.000 30.000 30.000 30.000 30.000 Vis ita al c entro SI Media 60.520 5.400 5.800 4.333 53.733 41.913 4.333 4.067 2.800 50.133 51.217 4.867 4.933 3.567 51.933 Desv . tp. 9.8307 1.9198 1.8205 1.2344 8.7706 7.5511 1.9518 2.0517 .9411 8.2710 12.7952 1.9780 2.0998 1.3309 8.5740

NO

Total

Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones f amiliares Tamao de la f amilia Edad del jef e del hogar Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones f amiliares Tamao de la f amilia Edad del jef e del hogar Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones f amiliares Tamao de la f amilia Edad del jef e del hogar

Examen de medias y desviaciones


Conviene antes de iniciar la estimacin de las funciones discriminantes, analizar en detalle las variables de pronstico del modelo. Parece que los grupos estn ms separados en trminos de ingreso que de otras variables. Parece haber mayor separacin en la importancia concedida a las vacaciones familiares que en la opinin sobre los viajes. La diferencia entre los dos grupos en cuanto a la edad del jefe del hogar es pequea y la desviacin estndar de esta variable es grande.

Matrices
Matrices de coeficientes disponibles para las variables de pronstico. Correlacin intra-grupos. Muestra la matriz de correlaciones intra-grupos combinada, que se obtiene de promediar las matrices de covarianza individuales para todos los grupos antes de calcular las correlaciones. Covarianza intra-grupos. Muestra la matriz de covarianza intra-grupos combinada, la cual puede diferir de la matriz de covarianza total. La matriz se obtiene de promediar, para todos los grupos, las matrices de covarianza individuales. Covarianza de grupos separados. Muestra las matrices de covarianza de cada grupo por separado. Covarianza total. Muestra la matriz de covarianza para todos los casos, como si fueran una nica muestra.

Matriz de Correlacin intragrupos


Matrices intra-grupo com binadas Importanc ia de las vacaciones f amiliares .091 .084 1.000 .070 .017 Ingreso f amiliar actual 1.000 .197 .091 .089 -.014 Opinin de los viajes .197 1.000 .084 -.017 -.197 Tamao de la familia .089 -.017 .070 1.000 -.043 Edad del jef e del hogar -.014 -.197 .017 -.043 1.000

Correlacin

Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones f amiliares Tamao de la f amilia Edad del jef e del hogar

Matriz de correlacin comn del grupo: Correlacin de Pearson entre las distintas variables de Pronstico del modelo. Detecta si existe multicolinealidad en las variables pronstico. En este caso indica que hay pocas correlaciones entre las variables de pronstico. Es poco probable que se presente un problema de multicolinealidad, dando as estabilidad a los parmetros que vamos a estimar.

Matriz de Covarianza intragrupos


a Matrices intra-grupo com binadas

Covarianza

Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones familiares Tamao de la f amilia Edad del jef e del hogar

Ingreso f amiliar actual 76.831 3.350 1.555 .855 -1.070

Opinin de los viajes 3.350 3.748 .317 -.036 -3.252

Importanc ia de las vacaciones f amiliares 1.555 .317 3.762 .150 .288

Tamao de la familia .855 -.036 .150 1.205 -.402

Edad del jef e del hogar -1.070 -3.252 .288 -.402 72.667

a. La matriz de c ovarianzas tiene 28 grados de libertad

Matriz de covarianza intragrupos: Calculada como media aritmtica ponderada de las covarianzas dentro de cada grupo de clasificacin. Se calcula para toda la muestra.

Matriz de Covarianza de grupos separados


Matrices de covar ianz as Importanc ia de las vacaciones f amiliares 9.397 .157 3.314 .357 -.057 -6.287 .476 4.210 -.057 .633 V is ita al c entro SI Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones f amiliares Tamao de la f amilia Edad del jef e del hogar Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones f amiliares Tamao de la f amilia Edad del jef e del hogar Ingreso f amiliar actual 96.642 7.170 9.397 3.207 28.249 57.020 -.469 -6.287 -1.497 -30.388 Opinin de los viajes 7.170 3.686 .157 -.214 -.243 -.469 3.810 .476 .143 -6.262 Tamao de la familia 3.207 -.214 .357 1.524 -2.762 -1.497 .143 -.057 .886 1.957 Edad del jef e del hogar 28.249 -.243 -.057 -2.762 76.924 -30.388 -6.262 .633 1.957 68.410

NO

Matriz de Covarianza de grupos total


a Matrices de covar ianz as

Vis ita al c entro Total

Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones f amiliares Tamao de la f amilia Edad del jef e del hogar

Ingreso f amiliar actual 163.718 8.368 9.843 8.204 16.291

Opinin de los viajes 8.368 3.913 .784 .389 -2.147

Importanc ia de las vacaciones f amiliares 9.843 .784 4.409 .832 1.892

Tamao de la familia 8.204 .389 .832 1.771 1.039

Edad del jef e del hogar 16.291 -2.147 1.892 1.039 73.513

a. La matriz de c ovarianzas total presenta 29 grados de libertad.

de Wilks (estadstica U) y ANOVAs Univariados


Es el cociente de la Suma de Cuadrados Intragrupos y la Suma de Cuadrados Total en un ANOVA simple para cada una de las variables de pronstico por separado y tendiendo como factor la variable de criterio. La lambda de Wilks para un conjunto de p variables independientes mide las desviaciones dentro de cada grupo respecto a las desviaciones totales sin distinguir grupos, en el espacio p-dimensional generado por los valores de las p variables. Si 1: No existe diferencia entre las medias de los grupos en la variable considerada. Los grupos estn mezclados. Si 0: Una gran parte de la variabilidad total es atribuible a la diferencia entre las medias de los distintos grupos.

Prueba F univariadas
Determina si cada una de las variables de pronstico, tomada de forma aislada, diferencia significativamente entre los grupos de la variable de criterio. Indica que cuando se consideran separadamente las variables de pronstico, slo el ingreso, la importancia de las vacaciones y el tamao del hogar distinguen de manera significativa entre quienes visitaron un centro vacacional y quienes no lo hicieron.
Prue bas de igualdad de las m e dias de los grupos Lambda de Wilks .453 .925 .824 .657 .954 F 33.796 2.277 5.990 14.636 1.338 gl1 1 1 1 1 1 gl2 28 28 28 28 28 Sig. .000 .143 .021 .001 .257

Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones f amiliares Tamao de la familia Edad del jef e del hogar

Test M de Box sobre la igualdad de las matrices de covarianza


Contrasta hasta qu punto las matrices de varianzas-covarianzas para cada grupo o nivel de la variable pueden o no proceder de la misma poblacin, es decir, difieren o no significativamente.
Logaritm o de los de term inante s Vis ita al c entro SI NO Intra-grupos c ombinada Rango 5 5 5 Logaritmo del determinante 10.773 10.071 11.349

Los rangos y logaritmos naturales de los determinantes impres os s on los de las matrices de covarianzas de los grupos .

Res ultados de la prue ba M de Box F A prox. gl1 gl2 Sig. 25.964 1.393 15 3156.632 .141

Contras ta la hiptesis nula de que las matric es de c ov arianz as poblacionales son iguales.

Coeficientes de la funcin
Coeficientes de clasificacin de Fisher: Muestra los coeficientes de la Funcin lineal de clasificacin de Fisher que pueden utilizarse directamente para la clasificacin. Se obtiene un conjunto de coeficientes para cada grupo, y se asigna un caso al grupo para el que tiene una mayor puntuacin discriminante. Coeficientes sin estandarizar: Muestra los coeficientes de la funcin discriminante sin estandarizar (los coeficientes brutos).

Resumen de las funciones cannicas discriminantes


Autovalore s Func in 1 Autov alor % de v arianz a 1.786a 100.0 % ac umulado 100.0 Correlacin cannic a .801

a. Se han empleado las 1 primeras f unciones discriminantes cannic as en el anlis is.

Como hay dos grupos slo se estima una funcin discriminante. El valor propio asociado a esta funcin es 1.7862, que significa 100% de la varianza explicada. La correlacin cannica es una medida de la asociacin entre cada funcin discriminante y la variable de criterio. La correlacin cannica asociada con esta funcin es 0.8007. El cuadrado de esta correlacin, (0.8007)^2 = 0.64, indica que 64% de la varianza de la variable de criterio (VISITA) se explica con este modelo.

Correlacin cannica y autovalores


La correlacin cannica y el autovalor asociado a una funcin son dos medidas, relacionadas con la Lambda de Wilks, que permitirn evaluar la informacin que aportar cada funcin discriminante en particular. La correlacin cannica mide las desviaciones de las puntuaciones discriminantes entre grupos respecto a las desviaciones totales sin distinguir grupos. El autovalor mide las desviaciones de las puntuaciones discriminantes entre los grupos respecto a las desviaciones dentro de los grupos. En ambos casos, si el valor obtenido es grande la dispersin ser debida a las diferencias entre grupos y, en consecuencia, la funcin discriminar mucho los grupos.

III. Determinacin de la Significancia de la funcin discriminante.


Se puede comprobar en forma estadstica la hiptesis nula de que las medias en la poblacin de todas las funciones discriminantes son de todos los grupos. Se basa en una transformacin de chi cuadrada de la estadstica de Wilks. En nuestro ejemplo, la de Wilks de 0.3589 se transforma en una chi cuadrada de 26.13 con 5 grados de libertad, que es significativo por arriba de 0.05.
Lam bda de Wilk s Contras te de las f unciones 1 Lambda de Wilks .359 Chi-c uadrado 26.130 gl 5 Sig. .000

Nota importante
No tiene sentido interpretar los resultados si las funciones discriminantes estimadas no son estadsticamente significativas. Si se rechaza la hiptesis nula, lo que indica discriminacin significativa, se puede proceder a interpretar los resultados.

IV. Interpretacin de Resultados


Coeficientes de discriminacin: Interpretacin semejante al anlisis de regresin mltiple. El valor del coeficiente para una VP depende de las otras VP que se incluyan en el anlisis. Pueden aplicarse a los valores directos de las variables en la muestra de anlisis con fines de clasificacin.
Func in 1 .08477 .04964 .12028 .42739 .02454 -7.97548

Coe ficientes de las funcione s cannicas

Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones familiares Tamao de la f amilia Edad del jef e del hogar (Cons tante) Coef icientes no tipif ic ados

Funcin discriminante, tanto en valores estandarizados como no estandarizados. D = -7.975 +.085(70.3)+0.050(6)+.120(7)+.427(4)+.025(61)=2.3735

Los signos de los coeficientes asociados con todas las variables de pronstico son positivos, lo que indica que a ms ingreso familiar, tamao de la familia, importancia de las vacaciones familiares, opinin de los viajes y edad, es ms probable que una familia visite un centro vacacional.

Coe ficientes de las funcione s cannicas Func in 1 .08477 .04964 .12028 .42739 .02454 -7.97548

Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones familiares Tamao de la f amilia Edad del jef e del hogar (Cons tante) Coef icientes no tipif ic ados

IV. Interpretacin de Resultados


Coe ficientes es tandarizados de las funcione s discrim inante s cannicas Func in 1 .74301 .09611 .23329 .46911 .20922

Ingreso f amiliar actual Opinin de los v iajes Importanc ia de las vacaciones familiares Tamao de la f amilia Edad del jef e del hogar

Coeficientes estandarizados Revelan la Importancia relativa de las variables de pronstico. En general, cuanto mayor sea el valor, mayor ser la potencia discriminante de la funcin, comparada con las variables de pronstico con coeficientes menores.

IV. Interpretacin de Resultados


Correlaciones estructurales: Correlaciones simples entre cada variable de pronstico y la funcin discriminante. Representan la varianza que comparten con la funcin la variable de pronstico. Cuanto mayor sea la magnitud de una CE, ms importante ser la variable correspondiente de pronstico.
Matriz de e s tructura Func in 1 .822 .541 .346 .213 .164

Ingreso f amiliar actual Tamao de la f amilia Importanc ia de las vacaciones f amiliares Opinin de los v iajes Edad del jef e del hogar

Correlaciones intra-grupo c ombinadas entre las variables discriminantes y las f unc iones disc riminantes cannicas tipif ic adas Variables ordenadas por el tamao de la correlacin c on la func in.

IV. Interpretacin de Resultados


Funciones en los centroides de los grupos Funcin 1 1.291 -1.291

V is ita al c entro SI NO

Funciones disc riminantes cannicas no tipif ic adas ev aluadas en las medias de los grupos

Centroide: Se promedian las puntuaciones discriminantes para todos los individuos dentro de un grupo o categora particular para llegar a la media del grupo. Indican la ubicacin ms tpica de un individuo de un grupo en particular. Una comparacin de los centroides de los grupos muestra qu tan alejados estn los grupos a lo largo de la funcin discriminante.

Perfil de caractersticas
Sera razonable trazar un perfil de los dos grupos en trminos de las medias de las tres variables de pronstico que parecen ser las ms importantes. Ingreso Tamao de la familia Importancia de las vacaciones

Grficos combinados
Grupos combinados. Crea un diagrama de dispersin, con todos los grupos, de los valores en las dos primeras funciones discriminantes. Si slo hay una funcin, en su lugar se muestra un histograma.

Grficos por grupos separados


Grupos separados. Crea diagramas de dispersin, de los grupos por separado, para los valores en las dos primeras funciones discriminantes. Si slo hay una funcin se muestra un histograma en su lugar.

Grficos por grupos separados


Grupos separados. Crea diagramas de dispersin, de los grupos por separado, para los valores en las dos primeras funciones discriminantes. Si slo hay una funcin se muestra un histograma en su lugar.

V. Evaluar la validez del AD


Antes de interpretar con confianza algn resultado, es necesario validarlos.

Botn Clasificar
Cuadro de dilogo Anlisis discriminante: Clasificar

Probabilidades previas
Probabilidades previas.
Estos valores se utilizan para la clasificacin. Puede especificar que las probabilidades previas sean iguales para todos los grupos (Todos los grupos iguales), Dejar que los tamaos de grupo observados en la muestra determinen las probabilidades de la pertenencia al grupo (Calcular segn tamaos de grupos).

Probabilidades previas
Probabilidades pre vias para los grupos Casos utiliz ados en el anlisis No ponderados Ponderados 15 15.000 15 15.000 30 30.000

Vis ita al c entro SI NO Total

Previas .500 .500 1.000

En nuestro ejemplo se decidi que las probabilidades sean iguales para ambos grupos

Resultados para cada caso.


Se muestran, para cada caso, los cdigos del grupo real de pertenencia, el grupo pronosticado, las probabilidades posteriores y las puntuaciones discriminantes. Los sujetos se asignan a grupos basados en sus puntuaciones discriminantes y en una regla de clasificacin apropiada (basada en el teorema de Bayes). En un AD de dos grupos se asignar un caso al grupo con el centroide ms cercano.

Es tad stico s p or caso s Puntuaciones disc riminantes

Grupo mayor Distancia de Mahalanobis al cuadrado hasta el centroide 1.252 1.080 .731 1.407 .519 4.562 .416 .001 .050 .667 1.721 1.740 .159 .349 .582 .279 .725 .005 .482 .149 .211 .272 .258 .592 .206 .013 .414 .261 .430 .621 1.101 1.677 .173 .377 1.465 .141 .015 1.497 .007 .438 .696 .386

Segundo grupo mayor Distancia de Mahalanobis al cuadrado hasta el centroide 2.141 13.115 11.814 1.950 3.467 22.262 3.754 6.471 7.878 11.553 15.166 15.220 8.888 3.968 3.311 9.676 11.792 7.024 3.564 4.822 9.249 4.246 4.304 3.287 4.531 7.281 3.758 9.569 10.485 11.359 2.351 15.032 4.692 3.873 14.385 4.868 7.320 1.847 7.105 3.689 3.056 10.265

Original

Nmero de c as o 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 u 32 u 33 u 34 u 35 u 36 u 37 u 38 u 39 u 40 u 41 u 42 u

Grupo real 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 1 1 1 2 2 2 2 2 2

Grupo pronos ticado 2** 1 1 1 1 1 2** 1 1 1 1 1 1 2** 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2** 1 1 2** 1 1 2 2 2 2 2 2

P(D>d | G=g) p gl .263 1 .299 1 .393 1 .236 1 .471 1 .033 1 .519 1 .969 1 .822 1 .414 1 .190 1 .187 1 .690 1 .555 1 .446 1 .597 1 .394 1 .946 1 .487 1 .699 1 .646 1 .602 1 .612 1 .442 1 .650 1 .908 1 .520 1 .609 1 .512 1 .431 1 .294 1 .195 1 .677 1 .539 1 .226 1 .707 1 .902 1 .221 1 .934 1 .508 1 .404 1 .534 1

P(G=g | D=d) .609 .998 .996 .567 .814 1.000 .841 .962 .980 .996 .999 .999 .987 .859 .796 .991 .996 .971 .824 .912 .989 .879 .883 .794 .897 .974 .842 .991 .993 .995 .651 .999 .905 .852 .998 .914 .975 .544 .972 .836 .765 .993

Grupo 1 2 2 2 2 2 1 2 2 2 2 2 2 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 2 2 1 1 1 1 1 1

P(G=g | D=d) .391 .002 .004 .433 .186 .000 .159 .038 .020 .004 .001 .001 .013 .141 .204 .009 .004 .029 .176 .088 .011 .121 .117 .206 .103 .026 .158 .009 .007 .005 .349 .001 .095 .148 .002 .086 .025 .456 .028 .164 .235 .007

Func in 1 -.172 2.330 2.146 .105 .571 3.427 -.646 1.253 1.516 2.108 2.603 2.610 1.690 -.701 .528 -1.819 -2.143 -1.359 -.597 -.905 -1.750 -.769 -.783 -.522 -.837 -1.407 -.647 -1.802 -1.947 -2.079 -.242 2.586 .875 -.677 2.502 .915 -1.414 -.068 -1.374 -.629 -.457 -1.913

u. Caso no selec cionado **. Caso mal clasif ic ado

Tabla de resumen.
"Matriz de Confusin": Nmero de sujetos correcta e incorrectamente clasificados a cada uno de los grupos, basndose en el total de la muestra. Los coeficientes discriminantes, estimados en la muestra de anlisis, se multiplican por los valores de las variables de pronstico en la muestra de validacin para generar puntuaciones de discriminacin para los sujetos de esta ltima muestra.

Validacin cruzada con exclusin


Clasificacin dejando uno fuera. Se clasifica cada caso del anlisis mediante la funcin derivada a partir de todos los casos, excepto el propio caso. Tambin conocido como mtodo-U. El modelo discriminante se estima tantas veces como encuestados haya en la muestra. Se usa cuando no se puede tener una muestra de validacin grande. Confiere una sensacin de solidez de estimacin al tomar a cada encuestado, uno por uno, como muestra de validacin.

Resultados de la clasificacin
b,c,d Res ultados de la clas ificacin

Casos selec cionados

Original

Recuento %

a Recuento V alidacin c ruzada

% Casos no s elecc ionados Original Recuento %

V is ita al c entro SI NO SI NO SI NO SI NO SI NO SI NO

Grupo de pertenencia pronos ticado SI NO 12 3 0 15 80.0 20.0 .0 100.0 11 4 2 13 73.3 26.7 13.3 86.7 4 2 0 6 66.7 33.3 .0 100.0

Total 15 15 100.0 100.0 15 15 100.0 100.0 6 6 100.0 100.0

a. La v alidacin c ruzada s lo s e aplica a los casos del anlisis . En la v alidacin cruzada, cada caso se c lasifica mediante las func iones deriv adas a partir del resto de los c asos. b. Clas if icados c orrec tamente el 90.0% de los casos agrupados originales s elecc ionados . c. Clas if icados c orrec tamente el 83.3% de casos agrupados originales no seleccionados. d. Clas if icados c orrec tamente el 80.0% de los casos agrupados v alidados mediante validacin cruz ada seleccionados.

Proporcin de aciertos
Porcentaje de casos bien clasificados. Se suman los elementos de la diagonal y se dividen entre el total de casos. Se espera que el porcentaje de sujetos bien clasificados con el AD sea por lo menos 25% mayor que el obtenido al azar.

Resultado de la clasificacin
Sujetos originales: 90% (27/30)
Inflada artificialmente, pues los datos de la estimacin son los mismos para la validacin.

Validacin cruzada: 80% (24/30). Muestra de validacin: 83.33 % (10/12). Dados dos grupos del mismo tamao, uno esperara por obra de la casualidad una proporcin de aciertos de = 50%. La mejora sobre el azar es de ms de 25 % y se considera satisfactoria la validez del anlisis discriminante.

Usar matriz de covarianzas


Existe la opcin de clasificar los casos utilizando una matriz de covarianzas intra-grupos o una matriz de covarianzas de los grupos separados.
Intra-grupos. Se utiliza la matriz de covarianza intragrupos combinada para clasificar los casos. Grupos separados. Para la clasificacin se utilizan las matrices de covarianza de los grupos separados. Dado que la clasificacin se basa en las funciones discriminantes y no en las variables originales, esta opcin no siempre es equivalente a la discriminacin cuadrtica.

Evaluar riesgo crediticio


Si usted es un oficial de prstamos en un banco, quiere poder identificar las caractersticas que indican si las personas van a fallar o no en un prstamo, y quiere usar esas caractersticas para identificar buenos y malos riesgos crediticios. 700 clientes a los que se les otorg un prstamo. 150 prospectos

Preparando los datos para el anlisis


El establecer una semilla aleatoria le permite replicar la seleccin aleatoria de sujetos en este anlisis.

Preparando los datos para el anlisis


Para crear la variable de seleccin para validacin. rv.bernoulli(0.7) Esto hace que los valores a validar sean generados aleatoriamente con una distribucin Bernoulli y un parmetro de probabilidad de 0.7

Preparando los datos para el anlisis


Slo quiere usar validar con los sujetos que podran ser usados para el modelo; es decir, los clientes previos. Sin embargo, hay 150 personas que corresponden a clientes potenciales en el archivo de datos. Para hacer los clculos slo para los clientes previos, use el botn Si MISSING(impago) = 0

Preparando los datos para el anlisis


Es tadsticos validar N Vlidos Perdidos
Vlidos .00 1.00 Total Sistema Frecuenc ia 201 499 700 150 850 validar Porcentaje 23.6 58.7 82.4 17.6 100.0 Porcentaje vlido 28.7 71.3 100.0 Porcentaje ac umulado 28.7 100.0

700 150

Perdidos Total

Esto asegura que validar slo se calcular para los sujetos sin valores perdidos en impago; es decir, para los clientes que recibieron previamente un prstamo. Aproximadamente el 70% de los clientes a los que se les haba dado un prstamos tendrn un valor de 1. Estos clientes sern usados para crear el modelo. Los clientes restantes a los que previamente se les haba dado un prstamo sern usados en la muestra de validacin

Corriendo el anlisis

Variable de criterio: Impagos anteriores (0,1) Variables de pronstico Aos con la empresa actual Aos en la direccin actual Tasa de deuda sobre ingresos (x100) Deuda de la tarjeta de crdito en miles

Validar (1)

Botn Estadsticos

Botn Clasificar

Botn Guardar

Clasificando clientes como bajo o alto riesgo crediticio


Las funciones de clasificacin son usadas para asignar personas a los grupos. Hay una funcin separada para cada grupo. Para cada sujeto, se calcula una puntuacin discriminante para cada funcin. El modelo discriminante asigna el sujeto al grupo cuya funcin de clasificacin obtuvo la puntuacin ms alta.
Coe ficientes de la funcin de clasificacin Impagos anteriores No S A os con la empresa ac tual A os en la direcc in ac tual Tasa de deuda s obre ingresos (x 100) Deuda de la tarjeta de crdito en miles (Cons tante) .277 .145 .291 -.734 -3.485 .109 .085 .386 -.303 -3.676

Func iones disc riminantes lineales de Fisher

Clasificando clientes como bajo o alto riesgo crediticio


Los coeficientes para Aos con la empresa actual y Aos en la direccin actual son ms pequeos para la funcin de clasificacin SI, lo que significa que los clientes que vivieron en la misma direccin y trabajaron en la misma compaa por muchos aos son menos propensos a incumplir con su pago de la deuda. De manera similar, los clientes con mayor deuda son ms propensos a fallar.
Coe ficientes de la funcin de clasificacin Impagos anteriores No S A os con la empresa ac tual A os en la direcc in ac tual Tasa de deuda s obre ingresos (x 100) Deuda de la tarjeta de crdito en miles (Cons tante) .277 .145 .291 -.734 -3.485 .109 .085 .386 -.303 -3.676

Func iones disc riminantes lineales de Fisher

Clasificando clientes como bajo o alto riesgo crediticio

Por ejemplo, considere el sujeto 701 y 703 El sujeto 701 ha tenido el mismo empleo por 16 aos, vivido en su domicilio actual por 13 aos, y ha tenido una deuda equivalente al 10.9% de su ingreso, $540 de los cuales es de tarjeta de crdito.

Clasificando clientes como bajo o alto riesgo crediticio

El modelo discriminante predice que hay slo cerca de un 8% de probabilidad que la persona no pagar el prstamo, por lo que es un buen riesgo crediticio. El sujeto 703 ha tenido el mismo trabajo y vivido en la misma direccin por menos aos y tiene ms deudas, por lo que el modelo lo ve como un pobre riesgo crediticio.

Verificando supuestos

Colinealidad de las variables de pronstico


Matrices intra-grupo com binadas A os con la empresa ac tual Correlacin A os con la empresa ac tual A os en la direcc in ac tual Tasa de deuda s obre ingresos (x 100) Deuda de la tarjeta de crdito en miles 1.000 .286 .104 .508 A os en la direc cin ac tual .286 1.000 .140 .290 Tasa de deuda sobre ingresos (x100) .104 .140 1.000 .508 Deuda de la tarjeta de c rdito en miles .508 .290 .508 1.000

La Matriz de correlacin intra-grupos muestra las correlaciones entre las variables de pronstico. Las correlaciones ms grandes ocurren entre Deuda de crdito en miles y las otras variables, pero es difcil decir si son lo suficientemente grandes como para preocuparse. Observe las diferencias entre la Matriz de estructura y los coeficientes estandarizados para estar seguro.

Correlacin de las medias y varianzas de grupo


Es tadsticos de grupo N v lido (s egn lista) No ponderados Ponderados 375 375 375 375 124 124 124 124 499 499 499 499 375.000 375.000 375.000 375.000 124.000 124.000 124.000 124.000 499.000 499.000 499.000 499.000 Impagos anteriores No Media A os con la empresa ac tual A os en la direcc in ac tual Tasa de deuda s obre ingresos (x 100) Deuda de la tarjeta de crdito en miles A os con la empresa ac tual A os en la direcc in ac tual Tasa de deuda s obre ingresos (x 100) Deuda de la tarjeta de crdito en miles A os con la empresa ac tual A os en la direcc in ac tual Tasa de deuda s obre ingresos (x 100) Deuda de la tarjeta de crdito en miles 9.5840 8.8800 8.8179 1.2554 5.1855 6.3548 14.4468 2.3656 8.4910 8.2525 10.2166 1.5313 Desv . tp. 6.67766 6.94239 5.69545 1.41769 5.72737 6.27836 7.97554 3.36732 6.72386 6.86476 6.78238 2.13087

Total

Problema de heteroscedasticidad
La tabla de estadsticos de grupo revela un problema potencialmente ms serio. Para las cuatro variables de pronstico, las medias de grupo ms grandes estn asociadas con desviaciones estndar mayores. En particular, observe Tasa de deuda sobre ingresos y Deuda de la tarjeta de crdito en miles para las cuales las medias y las desviaciones estndar para el grupo SI son considerablemente mayores. En anlisis posteriores, podra considerar usar valores transformados de estas variables.

Homogeneidad de las matrices de covarianza


Logaritm o de los de term inante s Impagos anteriores No S Intra-grupos c ombinada Rango 4 4 4 Logaritmo del determinante 11.185 12.253 11.957

Los rangos y logaritmos naturales de los determinantes impres os s on los de las matrices de covarianzas de los grupos .

Res ultados de la prue ba M de Box F A prox. gl1 gl2 Sig. 252.117 24.893 10 245917.2 .000

Contras ta la hiptesis nula de que las matric es de c ov arianz as poblacionales son iguales.

Logaritmos del determinante son medidas de la variabilidad de los grupos. Entre ms grandes los valores, los grupos tendrn mayor variabilidad. Grandes diferencias en los logaritmos de los determinantes indican grupos que tienen diferentes matrices de covarianza.

Homogeneidad de las matrices de covarianza


Logaritm o de los de term inante s Impagos anteriores No S Intra-grupos c ombinada Rango 4 4 4 Logaritmo del determinante 11.185 12.253 11.957

Los rangos y logaritmos naturales de los determinantes impres os s on los de las matrices de covarianzas de los grupos .

Res ultados de la prue ba M de Box F A prox. gl1 gl2 Sig. 252.117 24.893 10 245917.2 .000

Contras ta la hiptesis nula de que las matric es de c ov arianz as poblacionales son iguales.

La M de Box prueba el supuesto de igualdad de covarianzas entre los grupos. Ya que la prueba es significativa, debera requerir matrices separadas para ver si esto da resultados de clasificacin radicalmente diferentes.

Evaluado la contribucin de las variables de pronstico


Hay varias tablas que evalan la contribucin de cada variable de pronstico al modelo, incluyendo
Pruebas de igualdad de las medias de los grupos, Coeficientes estandarizados de la funcin discriminante Matriz estructura.

Pruebas de igualdad de las medias de los grupos


Prue bas de igualdad de las m e dias de los grupos Lambda de Wilks Aos con la empresa ac tual Aos en la direcc in ac tual Tasa de deuda s obre ingresos (x 100) Deuda de la tarjeta de crdito en miles .920 .975 .871 .949 F 43.262 12.911 73.534 26.597 gl1 1 1 1 1 gl2 497 497 497 497 Sig. .000 .000 .000 .000

Mide el potencial de cada variable de pronstico antes de crear el modelo. Cada prueba muestra los resultados de un ANOVA para la variable de pronstico usando la variable de criterio como factor. Si el p-valor es mayor a 0.10, la variable probablemente no contribuye al modelo. En este ejemplo, cada variable es significativa en el modelo discriminante.

Pruebas de igualdad de las medias de los grupos


Prue bas de igualdad de las m e dias de los grupos Lambda de Wilks Aos con la empresa ac tual Aos en la direcc in ac tual Tasa de deuda s obre ingresos (x 100) Deuda de la tarjeta de crdito en miles .920 .975 .871 .949 F 43.262 12.911 73.534 26.597 gl1 1 1 1 1 gl2 497 497 497 497 Sig. .000 .000 .000 .000

Lambda de Wilks es otra medida del potencia de una variable. Valores ms pequeos indican que la variable es mejor al discriminar entre grupos. La tabla sugiere que Tasa de deuda sobre ingresos (x100) es la mejor, seguida por Aos con la empresa actual, Deuda en tarjeta de crdito en miles y Aos en la direccin actual

Coeficientes estandarizados de la funcin discriminante


Coe ficientes es tandarizados de las funcione s discrim inante s cannicas Func in 1 A os con la empresa ac tual A os en la direcc in ac tual Tasa de deuda s obre ingresos (x 100) Deuda de la tarjeta de crdito en miles -.784 -.295 .437 .649

Los coeficientes estandarizados le permiten comparar variables medidas en diferentes escalas. Los coeficientes con mayo valor absoluto corresponden a variables con mayor capacidad discriminante. Esta tabla le baja importancia a Tasa.. pero el orden se conserva.

Matriz de estructura
Matriz de e s tructura Func in 1 Tasa de deuda s obre ingresos (x 100) Aos con la empresa ac tual Deuda de la tarjeta de crdito en miles Aos en la direcc in ac tual .644 -.494 .387 -.270

Correlaciones intra-grupo c ombinadas entre las variables discriminantes y las f unc iones disc riminantes cannicas tipif ic adas Variables ordenadas por el tamao de la correlacin c on la func in.

Muestra la correlacin de cada variable de pronstico con la funcin discriminante. El orden es el mismo que el sugerido en las pruebas de igualdad de las medias de los grupos y es diferente del mostrado en la tabla de coeficientes estandarizados.

Por qu la discrepancia?
Matriz de e s tructura Func in 1 Tasa de deuda s obre ingresos (x 100) Aos con la empresa ac tual Deuda de la tarjeta de crdito en miles Aos en la direcc in ac tual .644 -.494 .387 -.270

Correlaciones intra-grupo c ombinadas entre las variables discriminantes y las f unc iones disc riminantes cannicas tipif ic adas Variables ordenadas por el tamao de la correlacin c on la func in.

La discrepancia se deba a la colinealidad entre Aos con la empresa actual y Deuda de la tarjeta de crdito en miles observada en la matriz de correlacin. Ya que la matriz de estructura no se ve afectada por la colinealidad, es seguro decir que esta colinealidad ha inflado la importancia de Aos con la empresa actual y Deuda con la tarjeta de crdito en miles en la tabla de coeficientes estandarizados. Por tanto, es Tasa de deuda sobre ingresos (x100) la que mejor discrimina entre los que cumplen y los que no cumplen con la deuda.

Evaluando el ajuste del modelo


Adems de las medidas para verificar la contribucin de las variables de pronstico a su modelo discriminante, se proveen la tabla de autovalores y la tabla de Lambda de Wils para ver qu tan bien se ajusta de manera global el modelo discriminante a los datos.

Autovalores
Autovalore s Func in 1 A utov alor % de v arianz a .357 a 100.0 % ac umulado 100.0 Correlacin cannic a .513

a. Se han empleado las 1 primeras f unciones discriminantes cannic as en el anlis is.

Provee informacin acerca de la eficacia relativa de cada funcin discriminante. Cuando hay dos grupos, la correlacin cannica es la medida ms til en la tabla, y es equivalente a la correlacin de Pearson entre las puntuaciones discriminantes y los grupos.

Lambda de Wilks
Lam bda de Wilk s Contras te de las f unciones 1 Lambda de Wilks .737 Chi-c uadrado 151.007 gl 4 Sig. .000

Mide qu tan bien cada funcin separa los sujetos en los grupos. Es igual a la proporcin de la varianza total en las puntuaciones discriminantes no explicada por las diferencias entre los grupos. Valores ms pequeos indican mayor poder discriminador de la funcin.

Lambda de Wilks
Lam bda de Wilk s Contras te de las f unciones 1 Lambda de Wilks .737 Chi-c uadrado 151.007 gl 4 Sig. .000

El estadstico Chi-cuadrado asociado prueba la hiptesis que las medias de las funciones enlistadas son iguales entre los grupos. El p-valor pequeo indica que la funcin discriminante hace un mejor trabajo que el azar al separar los grupos.

Validacin del modelo


b,c,d Res ultados de la clas ificacin

Casos selec cionados

Original

Recuento %

a Recuento V alidacin c ruzada

% Casos no s elecc ionados Original Recuento

Impagos anteriores No S No S No S No S No S Casos desagrupados No S Casos desagrupados

Grupo de pertenencia pronos ticado No S 281 94 30 94 74.9 25.1 24.2 75.8 278 97 31 93 74.1 25.9 25.0 75.0 106 36 10 49 95 55 74.6 25.4 16.9 83.1 63.3 36.7

Total 375 124 100.0 100.0 375 124 100.0 100.0 142 59 150 100.0 100.0 100.0

a. La v alidacin c ruzada slo s e aplica a los casos del anlisis . En la v alidacin cruzada, cada caso se c lasifica mediante las func iones deriv adas a partir del resto de los c asos. b. Clas if icados c orrec tamente el 75.2% de los casos agrupados originales s elecc ionados . c. Clas if icados c orrec tamente el 77.1% de casos agrupados originales no seleccionados. d. Clas if icados c orrec tamente el 74.3% de los casos agrupados validados mediante validac in cruz ada selec cionados .

Muestra de validacin inicial


La tabla de clasificacin muestra los resultados prcticos de usar el modelo discriminante. De los casos usados para crear el modelo, 94 de 124 personas que no pagaron son clasificadas correctamente. 281 de 375 cumplidos son clasificados correctamente. 75.2% de los sujetos de la muestra de estimacin fueron clasificados correctamente. La clasificacin basada en los sujetos usados para crear el modelo tienden a ser muy optimista en el sentido que su tasa de clasificacin es inflada.

Muestra de validacin final


La clasificacin cruzada intenta corregir esto al clasificar cada sujeto mientras se deja afuera de los clculos del modelo; sin embargo, este mtodo es generalmente todava ms optimista. La muestra de validacin final se obtiene al clasificar los clientes pasados que no fueron usados para crear el modelo. 77.1% de los sujetos no seleccionados en la estimacin son clasificados correctamente por el modelo. Esto sugiere que, de manera global, su modelo es de hecho correcto en 3 de 4 veces. Los 150 sujetos desagrupados son los clientes prospectos, y los resultados simplemente dan una tabla de frecuencias del grupo al que son asignadas estas personas.

Especificando Matriz de covarianza de grupos separados.


Ya que la M de Box es significativa, es til correr un segundo anlisis para ver si usar una matriz de covarianzas de grupos separados cambia la clasificacin
Adver te ncia La opc in SEPA RA TE implica ef ec tuar la c las if icac in en f uncin de las matrices de covarianzas de los grupos para las f unciones cannicas discriminantes , y no las de las variables originales. Si hay menos f unciones que variables , esto puede generar dif erencias.

a,b Res ultados de la clas ificacin

Casos selec cionados

Original

Recuento %

Casos no s elecc ionados

Original

Recuento

Impagos anteriores No S No S No S Casos desagrupados No S Casos desagrupados

Grupo de pertenencia pronos ticado No S 287 88 31 93 76.5 23.5 25.0 75.0 107 35 10 49 96 54 75.4 24.6 16.9 83.1 64.0 36.0

Total 375 124 100.0 100.0 142 59 150 100.0 100.0 100.0

a. Clas if icados c orrec tamente el 76.2% de los cas os agrupados originales seleccionados. b. Clas if icados c orrec tamente el 77.6% de casos agrupados originales no selec cionados .

Los resultados de clasificacin no han cambiado mucho, por lo que probablemente no es de utilidad o valor el usar matrices de covarianzas separadas. La M de Box puede ser muy sensible a archivos grandes de datos, que es justo lo que est pasando aqu.

Ajustando las probabilidades previas


Probabilidades pre vias para los grupos Casos utiliz ados en el anlisis No ponderados Ponderados 375 375.000 124 124.000 499 499.000

Impagos anteriores No S Total

Previas .500 .500 1.000

Muestra las probabilidades previas de pertenecer a un grupo. A menos que se especifique otra cosa, se asume que un sujeto tiene la misma probabilidad de ser cumplido o incumplido. Las probabilidades previas son usadas junto con los datos para determinar las funciones de clasificacin. Al ajustar las probabilidades previas de acuerdo con los tamaos de los grupos puede mejorar la tasa de clasificacin global.

Ajustando las probabilidades previas

Probabilidades pre vias para los grupos Casos utiliz ados en el anlisis No ponderados Ponderados 375 375.000 124 124.000 499 499.000

Impagos anteriores No S Total

Previas .752 .248 1.000

Ajustando las probabilidades previas


b,c,d Res ultados de la clas ificacin

Casos selec cionados

Original

Recuento %

a Recuento V alidacin c ruzada

% Casos no s elecc ionados Original Recuento

Impagos anteriores No S No S No S No S No S Casos desagrupados No S Casos desagrupados

Grupo de pertenencia pronos ticado No S 356 19 75 49 94.9 5.1 60.5 39.5 355 20 77 47 94.7 5.3 62.1 37.9 137 5 31 28 130 20 96.5 3.5 52.5 47.5 86.7 13.3

Total 375 124 100.0 100.0 375 124 100.0 100.0 142 59 150 100.0 100.0 100.0

a. La v alidacin c ruzada slo s e aplica a los casos del anlisis . En la v alidacin cruzada, cada caso se c lasifica mediante las func iones deriv adas a partir del resto de los c asos. b. Clas if icados c orrec tamente el 81.2% de los casos agrupados originales s elecc ionados . c. Clas if icados c orrec tamente el 82.1% de casos agrupados originales no seleccionados. d. Clas if icados c orrec tamente el 80.6% de los casos agrupados validados mediante validac in cruz ada selec cionados .

Ajustando las probabilidades previas


Las probabilidades previas ahora estn basadas en los tamaos de los grupos. Previamente, el 75.2% de los sujetos son cumplidores, por lo que las funciones de clasificacin ahora sern ponderadas de manera ms cargadas a favor de clasificar sujetos cumplidores. La tasa global de clasificacin es ms alta para estas clasificaciones que para aquellas basadas en probabilidades previas iguales. Desafortunadamente, esto bajo el costo de clasificar mal un mayor porcentaje de incumplidores. Si necesita ser conservador en sus prstamos, entonces su meta es identificar a los incumplidores y mejor usara probabilidades iguales. Si puede ser ms agresivo en sus prstamos, entonces puede usar probabilidades desiguales.

Problemas que surgen del AR


Cuando se usa el anlisis discriminante, es posible encontrar problemas y dificultades que dan lugar a resultados imprecisos o engaosos. 1. Se emple un tamao de muestra inadecuado. Debe ser por lo menos el doble o el triple del nmero de variables aplicadas en la ecuacin de regresin. 2. Las variables de pronstico no se midieron adecuadamente durante el estudio, estn mal expresadas o no fueron las correctas. En sntesis, no son las que tienen un efecto directo en la variable de criterio. 3. Multicorrelacin (Variables de pronstico muy correlacionadas. 4. La verdadera relacin entre la variable criterio y las de pronstico es no lineal, o tiene una forma poco usual. 5. Los datos de la variable de criterio pueden ser de escasa calidad, especialmente si las categoras fueron establecidas subjetivamente (por ejemplo: buenas/malas o cmodas/incmodas) y no objetivamente (cumplieron cuota/ no cumplieron)

Resumen
Usando Anlisis Discriminante, ha creado un modelo que clasifica a los clientes en alto y bajo riesgo crediticio. La M de Box mostr un posible problema con la heterogeneidad de las matrices de covarianza, aunque despus de indagar un poco ms, se descubri que esto era probablemente un efecto del tamao del archivo de datos. El uso de probabilidades previas desiguales para tomar ventaja del hecho que los cumplidores son ms que los incumplidos result en una tasa de clasificacin global mayor, pero con el costo de clasificar mal ms incumplidos como cumplidos.

EJERCICIOS

Considere los siguientes grupos de consumidores. El grupo 1 (G1) realiza sus compras en shoopings y el grupo 2 (G2) en outlets. Queremos establecer las diferencias de comportamiento entre estos dos grupos en base al ingreso y al nmero de compras que realizan en el ao para poder decidir si un consumidor que tiene un ingreso de 60,000 y que realiza 25 compras por ao puede clasificarse en alguno de esto dos grupos. La siguiente tabla muestra los datos para estas variables:

Grupo 1 Grupo 2 Observaciones Ingreso Compras Ingreso Compras 1 60 18,4 75 19,6 2 85,5 16,8 52,8 20,8 3 64,8 21,6 64,8 17,2 4 61,5 20,8 43,2 20,4 5 87 23,6 84 17,6 6 110,1 19,2 49,2 17,6 7 108 17,6 59,4 16 8 82,8 22,4 66 18,4 9 69 20 47,4 16,4 10 93 20,8 33 18,8 11 51 22 51 14 12 81 20 63 14,8

Piscinas
Supongamos que la Compaa Piscinas Amir ha reunido datos de ingreso y tamao de terrenos de grupos de propietarios de piscina y no propietarios, quienes viven en el sureste de Pennsilvania. Adems, hay datos disponibles para cada grupo sobre actitudes hacia los baos de sol, en escala de 0 (detestar los baos de sol hasta 10 = extremadamente aficionado a tomar baos de sol.)

Obtener un anlisis discriminante Probar si el modelo el bueno para pronosticar Validar el modelo con dos mtodos de validacin A qu grupo pertenece una persona con las siguientes caractersticas:
Ingreso anual: $12,000 Tamao de terreno: 42,000 pie2 Actitud hacia los baos de sol: 8

Calidad de profesor
Se dice que en la Universidad de Texas no existen maestros intermedios, es decir, o son buenos o son malos; por lo que se analizaron 20 maestros con base en su capacidad docente (metodologa de enseanza, exmenes representativos, calificaciones justas), experiencia en el rea de la materia y conocimiento en la misma; todo esto en una escala del 1-5 donde el uno significa bueno y el cinco malo, para ver si realmente se segmentaba de esta forma. Obtener el modelo discriminante Probar si el modelo es bueno para segmentar

Res m e ne s de cas os Calidad del prof esor Bueno Bueno Bueno Bueno Bueno Bueno Bueno Bueno Bueno Bueno Malo Malo Malo Malo Malo Malo Malo Malo Malo Malo Capacidad docente 1 1 1 2 1 3 1 1 2 2 3 4 4 5 5 5 5 5 4 4 Ex periencia en el rea 1 2 1 1 1 2 1 1 1 3 4 5 5 4 4 5 5 5 5 4 Conocimiento de la materia 1 1 1 2 1 1 1 1 1 1 3 5 2 5 2 4 3 5 4 5

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Preguntas

D un ejemplo real o hipottico en el cual el anlisis discriminatorio pudiera ser til en el anlisis de los datos de mercadotecnia. Cules variables de pronstico piensa que pudieran ser tiles para separar a los amantes de las caminatas y a los que no practican este deporte? Escoja dos variables cualesquiera de stas y construya un diagrama de dispersin hipottico (utilice su imaginacin) en un espacio bidimensional. Incluya una lnea discriminatoria. Explique qu se entiende por cada uno de los siguientes conceptos: funcin discriminatoria, centroide, clasificacin errnea.

En la siguiente ilustracin grfica de un anlisis discriminante de dos grupos:


Cules lneas describen las dos dimensiones en que los miembros del grupo han sido medidos? A lo largo de cul lnea est maximizada la variabilidad entre grupos, dividida por la variabilidad dentro de grupo? Cul lnea representa el eje discriminante? Suponiendo que queremos clasificar a los consumidores en los grupos respectivos de modo que haya un mnimo de costo conexo con el error de clasificar a una persona en el grupo B cuando en realidad pertenece al grupo A, Qu lnea quisiramos utilizar como base para la clasificacin?

Cuando se realiza un anlisis discriminante en dos dimensiones, una lnea discriminante sirve de lmite al hacer las clasificaciones. Qu forma de divisor geomtrico habr en un espacio de dos variables? En un espacio de tres variables? Y en un espacio de cuatro variables? Despus de usar los datos de 100 personas para construir una funcin discriminante, un investigador prueba la funcin al determinar cuntos de esos 100 sujetos estn clasificados correctamente. Qu debilidad conlleva este procedimiento?

You might also like