Análisis Discriminante

UNIVERSIDAD DE EL SALVADOR
FACULTAD MULTIDISCIPLINARIA DE OCCIDENTE

DEPARTAMENTO DE MATEMTICA
TEMA:
Anlisis discriminante.
ASIGNATURA:
Problema de Estadstica Aplicada
(P.E.A)
DOCENTE:
Licda. Claudia Lissett Ramos Barrientos.
ALUMNOS:
Geovani Oswaldo
Josu Isaac Blanco
Henry Oswaldo Martnez
CARRERA:
LICENCIATURA EN ESTADSTICA (L30941)
CICLO II / 2014
Introduccin.
En el presente trabajo se describe una tcnica estadstica de inters especial
en el mundo de la investigacin, es el denominado anlisis discriminante. Se
trata de una herramienta que permite asignar o clasificar nuevos individuos
dentro de los grupos previamente reconocidos o definidos; esto ltimo es la
diferencia entre el anlisis discriminante y el anlisis clster o de
conglomerados ya que el anlisis de conglomerados los grupos se forman pero
surgidos por la propia esencia de los datos.
El anlisis parte de una base de datos de n individuos en que se han medido p
variables cuantitativas independientes (explicativas), como perfil de cada uno
de ellos. Una variable cualitativa adicional (dependiente o clasificativa), con
dos o ms categoras. Esto se puede ver como una tabla n x ( p+ 1) a partir de
ella se obtendr un modelo discriminante contra el cual ser contrastado el
perfil de un nuevo individuo cuyo grupo se desconoce para, en funcin de un
resultado numrico, ser asignado al grupo ms probable; es importante
mencionar que cuanto mejor sea la informacin de partida ms fiable ser el
resultado de asignacin posteriores.
El anlisis discriminante es aplicable a muy diversas reas de conocimiento.
Se ha utilizado para distinguir grupos de patolgicos normales a partir de
resultados obtenidos en pruebas diagnsticas, como los parmetros
hemodinmicos en el mbito clnico mdico o las pruebas psicodiagnsticas en el
mbito clnico psicolgico. En el campo de los recursos humanos se aplica a la
seleccin de personal para realizar un filtrado de los currculos previo a la
entrevista personal. En banca se han utilizado para atribuir riesgo crediticio y
en las compaas aseguradoras para predecir la siniestralidad.
Para propsito de conocimiento se menciona que: el anlisis discriminante es
conceptualmente muy similar al anlisis de varianza multivariante de un factor.
Su propsito es el mismo que el del anlisis de regresin logstica, pero a
diferencia de l, solo admite variables cuantitativas. Si alguna de las variables
independientes es categrica, es preferible usar la regresin logstica.
Objetivos.
Objetivo general.
Aplicarle el anlisis discriminante a la base de datos denominada
coches.sav.
Objetivos especfi cos.
Explicar cada uno de los resultados producidos al aplicarle un anlisis

discriminante a la base de datos coches.sav.
Calcular la funcin discriminante y darle la interpretacin debida.
Marco Terico.
Anlisis discriminante.
El planteamiento estadstico del anlisis de discriminante es el siguiente. Se
dispone de un conjunto amplio de elementos que pueden venir de dos o ms
poblaciones distintas. En cada elemento se observa una variable aleatoria pdimensional X, cuya distribucin se conoce en las poblaciones consideradas. Se
desea clasificar un nuevo elemento, con valores de las variables conocidas, en
una de las poblaciones. Por ejemplo la primera aplicacin del anlisis
discriminante consisti en clasificar los restos de un crneo descubierto en
una excavacin como humano, utilizando la distribucin de medidas fsicas para
los crneos humanos y los de antropoides.
A falta de otra informacin, cualquier profesional se limita a utilizar su
propia experiencia o la de otros, o su intuicin, para anticipar el
comportamiento del nuevo elemento. Pero a medida que los problemas se hacen
ms complejos y las consecuencias de una mala decisin ms graves, las
impresiones subjetivas basadas en la propia intuicin o experiencia deben
ser sustituidas por argumentos ms consistentes. El anlisis discriminante
ayuda a identificar las caractersticas que diferencian (discriminan) a dos o
ms grupos y a crear una funcin capaz de distinguir con la mayor precisin
posible a los miembros de uno u otro grupo.
Obviamente, para llegar a conocer en qu se diferencian los grupos se
necesita disponer de la informacin (cuantificada en una serie de variables)
en la que suponemos que se diferencian. El anlisis discriminante es una
tcnica estadstica capaz de decirnos qu variables permiten diferenciar a
los grupos y cuntas de estas variables son necesarias para alcanzar la
mejor clasificacin posible. La pertenencia a los grupos, conocida de
antemano, se utiliza como variable dependiente (una variable categrica con
tantos valores discretos como grupos). Las variables en las que suponemos
que se diferencian los grupos se utilizan como variables independientes o
variables de clasificacin (tambin llamadas variables discriminantes).segn
se ver deben ser variables cuantitativas continuas o, al menos, admitir un
tratamiento numrico con significado.
El objetivo ltimo del anlisis discriminante es encontrar la combinacin

lineal de las variables independientes que mejor permite diferenciar
(discriminar) a los grupos. Una vez encontrada esa combinacin (la funcin
discriminante) podr ser utilizada para clasificar nuevos casos. Se trata de
una tcnica de anlisis multivariante que es capaz de aprovechar las
relaciones existentes entre una gran cantidad de variables independientes
para maximizar la capacidad de discriminacin.
El anlisis discriminante es conceptualmente muy similar al anlisis de
varianza multivariante de un factor. Su propsito es el mismo que el del
anlisis de regresin logstica, pero a diferencia de l, slo admite variables
cuantitativas. Si alguna de las variables independientes es categrica, es
preferible utilizar la regresin logstica.
Clasifi cacin con dos grupos.
Se trata de estudiar la aplicacin del anlisis discriminante a la clasificacin

de individuos en el caso de que dichos individuos se puedan asignar solamente
a dos grupos a partir de k variables clasificadoras. Este problema lo resolvi
Fisher analticamente su funcin discriminante la funcin discriminante de
Fischer D se obtiene como funcin lineal de k variables explicativas.
D=u1 X 1 +u2 X 2 ++uk X k
Las puntuaciones discriminantes son los valores que se obtienen al dar v
alores a X 1 , X 2 , , X k en la ecuacin.
D=u1 X 1 +u2 X 2 ++uk X k
Se trata de obtener los coeficientes de ponderacin
u j , si consideramos
que existe n observaciones, podemos expresar la funcin discriminante

para ellas:
D i=u1 X 1 i +u2 X 2 i++u k X ki i=1,2, ,n
Di . Es la puntuacin discriminante correspondiente a la observacin i-sima.
Expresando las variables explicativas en desviaciones respecto a la media,
Di
tambin estar y la relacin anterior se puede expresar en forma
matricial como sigue:

D1
D2
D3
X 11 X 21
X 12 X 22
X 1 n X 2n
Xk 1 U 1
Xk 2 U 2
X kn U k
En notacin compacta se puede escribir:

d= Xu
La variabilidad discriminante (suma de cuadrados de las variables
discriminantes en desviacin respecto a su media) se expresa como
t
d d=u X Xu
La matriz
Xt
es una matriz simtrica expresada en desviaciones respecto
a su media, por lo que puede considerarse como la matriz T de suma de

cuadrados (SCPC) total de las variables (explicativas) de la matriz X. segn
t
la teora del anlisis multivariante de la varianza, X X se puede
descomponer en la suma de la matriz entre grupos F y la matriz
intragrupos V (o residual). Se tiene:
X t X =T =F+ V
d t d=u t X t Xu=ut Tu=u t Fu+u t Wu

Los ejes discriminantes vendrn dados por los vectores propios asociados a
los valores propios de la matriz
W 1 F
ordenados de mayor a menor. Las
puntuaciones discriminantes corresponden con los valores obtenidos al

proyectar cada punto del espacio K-dimensional de las variables originales
sobre el eje discriminante.
Los centros de gravedad o centroides (vector de medias) son los estadsticos
bsicos que resumen la informacin sobre los grupos. Los centroides de los
grupos I y II sern los siguientes.
X1 I
X I = X2 I
XkI
X1,II
X II = X2,II
Xk , II
Con lo que para los grupos I y II se obtiene:

D I =u1 X1 I +u2 X2 I ++u k XkI
D II =u1 X1, II +u2 X2, II ++uk Xk , II

El punto de corte discriminante C se calcula mediante el promedio:
C=
D I + D II
2
El criterio para clasificar el individuo i es el siguiente:

Si
Di <C , se clasifica el individuo i en el grupo I
Si
Di C , se clasifica el individuo i en el grupo II
En general cuando, se clasifica un individuo en el grupo I si D-C > 0, y en grupo

II en otro caso.
A veces suelen construirse funciones discriminantes para cada grupo,
FI
F II , con la siguiente estructura:

F I =aI .1 X 1 + aI .2 X 2 ++a I . k X k C I
F II =aII .1 X 1+ a II .2 X 2 ++a II .k X k C II
Cuando se utilizan estas funciones, se clasifica u individuo en el grupo en el
que la funcin F j sea mayor. Este tipo de funciones clasificadoras tienen la
ventaja de que se generalizan fcilmente para el caso en el que existan ms
de dos grupo y viene implementado en la mayora del software estadstico.
Si hacemos:
a II .1 a
a II .2 a
aII .k a
C
( II C I )
( I . k ) X k
( I .2) X 2++
( I .1) X 1 +
F II F I =
u1 X 1+ u2 X 2++u k X k C=DC
Ya que se pueden obtener los coeficientes
u1 ,u 2 , . ,u k
Existen otros criterios de clasificacin, entre los que destacan el anlisis de la

regresin y la distancia de Mahalanobis.
La relacin entre el anlisis de regresin y el anlisis discriminante con dos
grupos es muy estrecha. Si se realiza un ajuste por mnimos cuadrados
tomando como variable dependiente la variable que defina la pertenencia a
uno u otro grupo y como variables explicativas a las variables clasificadoras,
se obtienen unos coeficientes que guardan una estricta proporcionalidad con
la funcin discriminante de Fisher.
Criterio de la distancia de Mahalanobis.
La distancia de Mahalanobis es una generalizacin de la distancia Eucldea

que tiene en cuenta la matriz de covarianzas intragrupos.
La distancia Eucldea es un caso particular de la distancia de Mahalanobis. La
distancia Eucldea no tiene en cuenta la dispersin entre las variables y las
relaciones existentes entre ellas, mientras que en la distancia de Mahalanobis
s que se descuentan esos factores al introducir la inversa de la matriz de
covarianza intragrupos. La distancia Eucldea ser.
p
d i , j =( X i X j ) I ( X i X j )= (X ih X jh )
2
h=1
Con el criterio de la distancia de Mahalanobis se calculan, para el punto i, las

dos distancias siguientes:
X
1
( iX I ) V W (X i X I )
2
DM i , I =
t
X
( iX II ) V W1 ( X i X II )
DM i , II 2=
t
La aplicacin de este criterio consiste en asignar cada individuo al grupo para

el que la distancia de Mahalanobis es menor.
Se observa que la distancia de Mahalanobis se calcula en el espacio de las
variables originales, mientras que en el criterio de Fisher se sintetizan todas
las variables en la funcin discriminante, que es la utilizada para realizar la
clasificacin.
Con los contrastes de significacin y evaluacin de la bondad de ajuste que se
realizan en el anlisis discriminante con dos grupos, se trata de dar respuesta
a tres tipos de cuestiones diferentes.
Se cumplen las hiptesis de homoscedasticidad del modelo?
Se cumple la hiptesis de normalidad?
Difieren significativamente las medias poblacionales de los dos grupos?
Clasifi cacin con ms de dos grupos.
En un caso general del anlisis discriminante con G grupos (G>2) llamado

anlisis discriminante mltiple, el nmero mximo de ejes discriminante que se
pueden obtener viene dado por min ( GI ,k ) . Por lo tanto pueden obtenerse
hasta G-I ejes determinantes, si el nmero de variables explicativas k es
mayor o igual que G-I, hecho que suele ser siempre cierto, ya que en las
aplicaciones prcticas el nmero de variables explicativas suele ser grande.
Cada una de las funciones discriminantes
de las k variables explicativas X, es decir.
Di
se obtiene como funcin lineal
D i=ui 1 X 1 +ui 2 X 2++u ik X k i=1,2, ,G1
Los G-1 ejes discriminantes vienen definidos respectivamente por los

vectores u1 ,u 2 , . ,u G1 definidos mediante las siguientes expresiones:
u 11
u1= u12
u1 k
u 21
u2= u 22
u2 k
uG11
uG1= u G12
uG1 k
Se puede concluir que los ejes discriminantes son las componentes de los
vectores propios normalizados asociados a los valores propios de la matriz
1
W F
ordenados en sentido decreciente (a mayor valor propio menor
eje discriminante).
En cuanto a los contrastes de significacin, en el anlisis discriminante
mltiple se plantean contrastes especficos para determinar si cada uno de
1
los valores i que se obtienen al resolver la ecuacin W Fu=u es
estadsticamente significativo, es decir, para determinar si contribuye o no a
la discriminacin entre los diferentes grupos.
Este tipo de contraste se realiza a partir del estadstico V de Barlett, que es
una funcin de la de Wilk y que se aproxima a una Chi-cuadrado. Su
expresin es la siguiente:
V ={ n1
|W |
|T|
K +G
ln() 2k (G 1)
2
La hiptesis nula de este contraste es
H 0 :u 1=u2==uG
y ha de ser
rechazada para que se pueda continuar con el anlisis discriminante, porque en

caso contrario las variables clasificadoras utilizadas no tendran poder
discriminante alguno.
No se olvide que la matriz W era la matriz de suma de cuadrados y productos
cruzados intragrupos en el anlisis de la varianza mltiple y T era la matriz
suma de cuadrados y productos cruzados total.
Tambin existe un estadstico de Barlett para contrastacin secuencial, que se

elabora como sigue:
1 |T |
1
1
1
1
=
=|W | |T|=|W T|=|W (W + F)|=| I +W F|
|W |
Pero como el determinante de una matriz es igual al producto de sus valores

propios, se tiene que:
1
=( 1+ 1) ( 1+ 2 ) (1+ G 1)
Esta expresin puede sustituirse en la expresin del estadstico V que fue

vista anteriormente, para obtener la expresin alternativa siguiente para el
estadstico de Barlett:
V ={ n1
K +G
K +G
ln ( )={ n1
2
2
G1
} ln (1+ )
k=1
2
k (G 1)
Si se rechaza la hiptesis nula de igualdad de medias, al menos uno de los ejes

discriminante es estadsticamente significativo, y ser el primero, porque es el
que ms poder discriminante tiene.
Una vez visto que el primer eje discriminante es significativo, se pasa a
analizar la significancia del segundo eje discriminante, analizando la
significancia de sucesivos ejes discriminantes. En este proceso secuencial se
va eliminando del estadstico V las races caractersticas que van resultando
significativas, deteniendo el proceso cuando se acepte la hiptesis nula de no
significatividad de los ejes discriminantes que queden por contrastar.
SPSS y el anlisis discriminaste.
Para poder interpretar los resultados es necesario conocer que es lo que

dicen los datos brindados por el programa SPSS; aunque algunos datos se les
restara menos importancia ya que solo se definir lo ms importantes de la
totalidad de informacin.
En la opcin descriptivos se van a encontrar las opciones que permiten obtener
informacin descriptiva y contraste univariantes y multivariantes sobre las
variables utilizadas en el anlisis, tales como.
Medias. Media, desviacin tpica, nmero de casos vlidos (ponderado
y no ponderado) para cada uno de los grupos y para la muestra total.

ANOVAs univariados. Tabla de ANOVA con estadsticos F que
permiten contrastar la hiptesis de igualdad de medias entre los
grupos en cada variable independiente. La tabla de ANOVA incluye
tambin el estadstico lambda de Wilk univariante. La informacin de
esta tabla suele utilizarse como prueba preliminar para detectar si
los grupos difieren en las variables de clasificacin seleccionadas; sin
embargo, debe tenerse en cuenta que una variable no significativa a nivel
univariante podra aportar informacin discriminativa a nivel
multivariante.
El estadstico Lambda de Wilk que expresa la proporcin de variabilidad
total no debida a la diferencia entre los grupos; sus hiptesis son:
H 0=las medias multivariantes de los grupos son iguales .
H a=las medias multivariantes de los grupos son diferentes .
M de Box. Prueba M de Box para el contraste de la hiptesis nula de

igualdad de las matrices de varianzas-covarianzas poblacionales. Uno
de los supuestos del anlisis discriminante es que todos los grupos
proceden de la misma poblacin y, ms concretamente, que las
matrices de varianzas-covarianzas poblacionales correspondientes a
cada grupo son iguales entre s.
Coeficientes de la funcin. Este apartado contiene opciones que permiten

seleccionar algunos coeficientes adicionales utilizados en la clasificacin de
los casos.
Coeficientes no tipificados. Coeficientes brutos de la funcin

cannica discriminante. Son los coeficientes utilizados por el
programa para calcular las puntuaciones discriminantes y l a ubicacin
de los centroides de los grupos.
Coeficientes de clasificacin de Fisher. Fisher (1936) present la
primera aproximacin a la clasificacin multivariante para el caso de
dos grupos. Los coeficientes propuestos por Fisher se utilizan
nicamente para la clasificacin. Al solicitar esta opcin se obtiene

una funcin de clasificacin para cada grupo. En el caso de dos grupos,
la diferencia entre ambas funciones da lugar a un vector de
coeficientes proporcional a los coeficientes no tipificados de la
funcin discriminante cannica.
Las opciones de clasificacin no afectan a la funcin discriminante; slo
influyen en el resultado de la clasificacin de los casos.
El proceso de clasificacin asigna o pronostica un grupo a todos los casos
utilizados en la estimacin d e la funcin discriminante y a todos los casos
que, aun no perteneciendo a ninguno de los grupos utilizados (es decir, aun
teniendo valor perdido en la variable de agrupacin), poseen informacin
completa en las variables independientes. Tambin es posible,
opcionalmente, clasificar los casos con informacin incompleta (es decir, con
valor perdido en alguna de las variables independientes).
Probabilidades previas. Las opciones de este apartado permiten controlar el
valor que adoptarn las probabilidades previas o probabilidades a priori:
Todos los grupos iguales. Se asigna la misma probabilidad a todos los
grupos. Si el anlisis discrimina entre k grupos, la probabilidad a priori
asignada a cada grupo vale 1/k. Con esta opcin el tamao de los
grupos no influya en la clasificacin.
Calcular segn el tamao de los grupos. La probabilidad a priori que
se asigna a cada grupo es proporcional a su tamao. Siendo N el
tamao de la muestra y ng el tamao de un grupo cualquiera, la
probabilidad a priori asignada a ese grupo es ng/N. Con esta opcin, si
un caso posee una puntuacin discriminante equidistante de los
centroides de dos grupos, el caso es clasificado en el grupo de mayor
tamao. Mediante sintaxis, es posible asignar a cada grupo
probabilidades a priori personalizadas.
Metodologa.
En este trabajo se hace uso de una base de datos llamada coches.sav, dentro
de ella la variable categrica denominada origen contiene 3 opciones pero para

propsitos prcticos se ha de eliminar la opcin etiquetada con el valor tres que
hace referencia a los vehculos de origen Japons, para esto se siguen los
siguientes pasos en el programa:
Datos Seleccionar casos
En el cuadro de dilogo se marca la opcin Si se satisface la condicin y
pulsar el botn Si, se establece la condicin de filtrado (origen < 3) y pulsar
continuar.
Ya con los datos filtrados se procede a realizar el anlisis discriminante, los
pasos son:
Analizar clasificar discriminante.
Ya en el cuadro de dilogo del anlisis discriminante estn los botones
estadsticos, Mtodo, Clasificar, Guardar; previamente marcar la opcin Usar
mtodo de inclusin por pasos (aparece abajo del cuadro de variables
independientes).
En las opciones del botn estadstico se seleccionan, para los descriptivos:
Medias, ANOVAS univariados, M de Box.
Para los coeficientes de la funcin se seleccionan: de Fisher, no tipificados.
Para las matrices, que pueden considerarse como opcionales ya que no provocan
mayor peso sobre el anlisis en s, se seleccionan todas las opciones.
En el botn mtodo nicamente corroborar la seleccin del mtodo Lambda de
Wilks, igualmente dejar intacta las opciones seleccionadas en el botn
clasificar. En el botn Guardar es opcional el marcar las opciones que all
aparecen.
Ya con los resultados brindados por el programa lo ms relevante es los
contrates de hiptesis tales como el de la igualdad de medias realizado a
travs del test de Lambda de Wilks as como la prueba M de Box para poder
contrastar o no la hiptesis de igualdad de matriz de covarianzas poblacionales.
El otro punto importante es la construccin de la funcin discriminante a
travs de la tabla denominada coeficientes de las funciones cannicas
discriminantes.
Descripcin de la base de datos.
La base de datos a utilizar en este trabajo para el tema del anlisis

discriminante se llama coches.sav contiene 7 variables denominadas consumo,
motor, CV, peso, acel, ao, origen. Dentro de ellas la variable denominada
origen es del tipo cualitativa (la que servir como la variable categrica) y hace
referencia al lugar geogrfico de fabricacin del vehculo; otra variable
cualitativa es el denominado ao que hace referencia al ao en que se present
al pblico el modelo. Consumo hace referencia a la cantidad de combustible
que consumo el vehculo, motor al tipo de motor, CV a la potencia del motor del
vehculo, peso al peso total del vehculo medido en kilogramos, acel a la
aceleracin del vehculo. Todas ellas del tipo cuantitativas.
La variable origen cuenta con tres opciones que son: EE.UU, Europa, Japn;
para el estudio siguiente la base de datos ha de ser filtrada ya que el inters
se centrara sobre EE.UU y Europa.
Aplicacin estadstica.
Si se observa la tabla 1 se puede observar que en lo relacionado al consumo del
vehculo los de EE.UU en promedio consumen ms, mismo fenmeno ocurre con
las variables potencia y peso total donde las cantidades son mayores que para
el grupo denominado Europa pero cuando se observa la variable aceleracin los
vehculos europeos tienden a ser ms rpidos en promedio algo lgico pues si
son los menos pesados podramos pensar que deben ser los ms rpidos aunque
se menciona que la diferencia no es mucha.
La otra columna hace referencia sobre la desviacin tpica un dato importante
ya que permitir tener un poco de cuidado al momento de aceptar lo propuesto
pues para el caso una desviacin grade puede dar indicios de la no
representatividad de las medias.
Tabla 1: Estadsticos descriptivos.

Pas de origen
EE.UU.
Consumo (l/100Km)
Media
12.98
Desv. tp.
3.864
N vlido (segn lista)

No
Ponderado
ponderados
s
250
250.000
Europa
Total
Potencia (CV)
119.50
39.755
250
250.000
Peso total (kg)
1122.08
268.324
250
250.000
Aceleracin 0 a 100 km/h (segundos)
14.86
2.809
250
250.000
Ao del modelo
75.48
3.707
250
250.000
9.00
2.147
70
70.000
Potencia (CV)
80.59
20.667
70
70.000
Peso total (kg)
811.74
164.683
70
70.000
16.85
3.068
70
70.000
Ao del modelo
75.53
3.484
70
70.000
Consumo (l/100Km)
12.11
3.921
320
320.000
Potencia (CV)
110.99
39.820
320
320.000
Peso total (kg)
1054.19
280.314
320
320.000
15.29
2.979
320
320.000
Ao del modelo
75.49
3.654
320
320.000
Consumo (l/100Km)
Tabla 2: Pruebas de igualdad de las medias de los grupos.

Lambda de Wilks
.823
F
68.393
Potencia (CV)
.836
Peso total (kg)
.790
Consumo (l/100Km)
Ao del modelo
gl1
1
gl2
318
Sig.
.000
62.257
318
.000
84.595
318
.000
.923
26.384
318
.000
1.000
.010
318
.922
La tabla 2 presenta el test de lambda Wilks, al observar los valores de la

columna denominada Sig. Permite rechazar la hiptesis de igualdad de las
medias entre los grupos para todas las variables a excepcin de la variable Ao
del modelo. Posiblemente porque est relacionada con una o ms variables
independientes que han sido tomadas para el estudio.
Tabla 3: Matrices de covarianzas poblacionales.

Pas de origen
EE.UU.
Consumo (l/100Km)
Potencia (CV)
Consumo
(l/100Km)
14.931
Potencia
(CV)
121.430
Peso total
(kg)
815.857
Aceleracin 0
a 100 km/h
(segundos)
-5.312
Ao del
modelo
-9.097
121.430
1580.444
8820.498
-80.917
-73.321
Peso total (kg)
Europa
Total
815.857
8820.498
71997.71
-310.871
-376.705
Aceleracin 0 a 100 km/h

(segundos)
-5.312
-80.917
-310.871
7.892
4.463
Ao del modelo
-9.097
-73.321
-376.705
4.463
13.745
4.609
32.493
213.232
-1.587
-2.899
Consumo (l/100Km)
Potencia (CV)
32.493
427.116
2142.515
-34.064
-9.488
Peso total (kg)
213.232
2142.515
27120.54
77.058
89.631

(segundos)
-1.587
-34.064
77.058
9.411
1.530
Ao del modelo
-2.899
-9.488
89.631
1.530
12.137
Consumo (l/100Km)
15.373
128.390
894.909
-5.850
-7.761
Potencia (CV)
128.390
1585.630
9418.727
-83.815
-59.608
Peso total (kg)
894.909
9418.727
78575.72
-331.945
-277.240
-5.850
-83.815
-331.945
8.876
3.831
-7.761
-59.608
-277.240
3.831
13.354

(segundos)
Ao del modelo
Tabla 4: Prueba de Box sobre la igualdad de las matrices de covarianzas.

M de Box
66.983
Aprox.
6.550
gl1
10
gl2
73227.701
Sig.
.000
Conforme a la informacin presentada en la tabla 4 se puede concluir que se ha

de rechazar la hiptesis de la igualdad de las matrices de varianza y covarianza
poblacional, algo que se puede corroborar con la informacin de la tabla 3.
Tabla 5: Estadstico Lambda de Wilks global para el modelo generado en cada paso.
Paso
F exacta
Nmero de
variables
1
Lambda
.790
3
4
gl1
1
gl2
1
gl3
318
Estadstico
84.595
.775
318
.740
.729
gl1
1
gl2
318.000
Sig.
.000
46.093
317.000
.000
318
37.021
316.000
.000
318
29.260
315.000
.000
La tabla 5 presenta la informacin del estadstico de Lambda pero solo para

cuatro variables ya que para el caso variable ao del modelo se deca que no
se poda rechazar la hiptesis de igualdad de medias, lo que provoca que aqu no
sea tomada en cuenta.
Tabla 6: Matriz de estructura.
Funcin
1
Peso total (kg)
.846
Potencia (CV)a
.782
Consumo (l/100Km)
.761
-.473
Ao del modelo
-.009
La tabla 6 contiene los valores de los coeficientes de correlacin brutos

variable y la funcin discriminante; la a que se observa a la par de la variable
potencia hace referencia a que esta variable no ser utilizada en el anlisis, es
decir no es necesaria para construir la funcin discriminante ya que al parecer
era la variable que tena un centroide muy cerca del centroide de la variable
ao del modelo lo que en su momento no permiti que se rechazara para esta
ltima variable la hiptesis de igualdad de medias segn el test de lambda de
Wilks.
Tabla 7: Coeficientes de las funciones cannicas discriminantes.

Funcin
1
Consumo (l/100Km)
.197
Peso total (kg)
.002
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
(Constante)
-.091
.171
-15.664
La tabla 7 muestra los valores de los coeficientes y la constante de la funcin

discriminante, en este caso solo una funcin ya que solo existan dos grupos. La
funcin discriminante quedara:

D1=0.197Consumo+ 0.002Peso0.091Ace+0.171Ao15.664
Conclusin
En conclusin se observ que los vehculos del pas de los Estados Unidos son
ms pesados, potentes pero menos veloces en promedio con respecto a los
vehculos provenientes del continente europeo, todos estos datos se
mencionaron en su momento igual que los datos de las desviaciones, pero si se
estudiara ms a fondo a las variables seguramente se encontraran valores
atpicos que distorsionan las posibles predicciones que se puedan hacer. Por
ejemplo si se observa la variable peso se ve que su desviacin es muy alta lo
que se podran entender como una no representatividad de la media.
Pero como el motivo del anlisis discriminante no tiene este fin por lo cual la
mirada debe girar sobre la funcin discriminante hallada en la cual lo nico
que falta por mencionar es que la variable consumo tiene una mayor
ponderacin sobre ella
Aunque hasta ahora solo se ha trabajado el caso prctico de dos grupos, lo

cierto es que la tcnica puede utilizarse para efectuar clasificaciones en ms
de dos grupos (como se hizo mencin en el marco terico). No obstante la
interpretacin con ms de dos grupos la interpretacin de los resultados
cambia ligeramente (resultados brindados por el programa estadstico SPSS).
Adems con ms de dos grupos es posible obtener ms de una funcin
discriminante, en concreto es posible obtener tantas como nmero de grupos
menos uno (a no ser que el nmero de variables independientes sea menor
que el nmero de grupos, en cuyo caso el nmero de posibles funciones
discriminantes ser igual al nmero de variables menos uno).

Análisis Discriminante

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Análisis Discriminante

Uploaded by

Copyright:

Available Formats

UNIVERSIDAD DE EL SALVADOR

FACULTAD MULTIDISCIPLINARIA DE OCCIDENTE

Objetivos especfi cos.

Explicar cada uno de los resultados producidos al aplicarle un anlisis

El objetivo ltimo del anlisis discriminante es encontrar la combinacin

Se trata de estudiar la aplicacin del anlisis discriminante a la clasificacin

que existe n observaciones, podemos expresar la funcin discriminante

tambin estar y la relacin anterior se puede expresar en forma

matricial como sigue:

En notacin compacta se puede escribir:

es una matriz simtrica expresada en desviaciones respecto

a su media, por lo que puede considerarse como la matriz T de suma de

d t d=u t X t Xu=ut Tu=u t Fu+u t Wu

ordenados de mayor a menor. Las

puntuaciones discriminantes corresponden con los valores obtenidos al

Con lo que para los grupos I y II se obtiene:

D II =u1 X1, II +u2 X2, II ++uk Xk , II

El criterio para clasificar el individuo i es el siguiente:

Di <C , se clasifica el individuo i en el grupo I

Di C , se clasifica el individuo i en el grupo II

En general cuando, se clasifica un individuo en el grupo I si D-C > 0, y en grupo

F II , con la siguiente estructura:

Existen otros criterios de clasificacin, entre los que destacan el anlisis de la

Criterio de la distancia de Mahalanobis.

La distancia de Mahalanobis es una generalizacin de la distancia Eucldea

Con el criterio de la distancia de Mahalanobis se calculan, para el punto i, las

La aplicacin de este criterio consiste en asignar cada individuo al grupo para

Clasifi cacin con ms de dos grupos.

En un caso general del anlisis discriminante con G grupos (G>2) llamado

se obtiene como funcin lineal

D i=ui 1 X 1 +ui 2 X 2++u ik X k i=1,2, ,G1

Los G-1 ejes discriminantes vienen definidos respectivamente por los

ordenados en sentido decreciente (a mayor valor propio menor

La hiptesis nula de este contraste es

rechazada para que se pueda continuar con el anlisis discriminante, porque en

Tambin existe un estadstico de Barlett para contrastacin secuencial, que se

Pero como el determinante de una matriz es igual al producto de sus valores

Esta expresin puede sustituirse en la expresin del estadstico V que fue

Si se rechaza la hiptesis nula de igualdad de medias, al menos uno de los ejes

Para poder interpretar los resultados es necesario conocer que es lo que

Medias. Media, desviacin tpica, nmero de casos vlidos (ponderado

y no ponderado) para cada uno de los grupos y para la muestra total.

M de Box. Prueba M de Box para el contraste de la hiptesis nula de

Coeficientes de la funcin. Este apartado contiene opciones que permiten

Coeficientes no tipificados. Coeficientes brutos de la funcin

nicamente para la clasificacin. Al solicitar esta opcin se obtiene

de ella la variable categrica denominada origen contiene 3 opciones pero para

Descripcin de la base de datos.

La base de datos a utilizar en este trabajo para el tema del anlisis

Tabla 1: Estadsticos descriptivos.

N vlido (segn lista)

Peso total (kg)

Aceleracin 0 a 100 km/h (segundos)

Peso total (kg)

Aceleracin 0 a 100 km/h (segundos)

Peso total (kg)

Aceleracin 0 a 100 km/h (segundos)

Tabla 2: Pruebas de igualdad de las medias de los grupos.

Peso total (kg)

Aceleracin 0 a 100 km/h (segundos)

La tabla 2 presenta el test de lambda Wilks, al observar los valores de la

Tabla 3: Matrices de covarianzas poblacionales.

Peso total (kg)