You are on page 1of 20

UNIVERSIDAD DE EL SALVADOR

FACULTAD MULTIDISCIPLINARIA DE OCCIDENTE


DEPARTAMENTO DE MATEMTICA

TEMA:
Anlisis discriminante.
ASIGNATURA:
Problema de Estadstica Aplicada
(P.E.A)
DOCENTE:
Licda. Claudia Lissett Ramos Barrientos.
ALUMNOS:
Geovani Oswaldo
Josu Isaac Blanco
Henry Oswaldo Martnez
CARRERA:
LICENCIATURA EN ESTADSTICA (L30941)
CICLO II / 2014

Introduccin.
En el presente trabajo se describe una tcnica estadstica de inters especial
en el mundo de la investigacin, es el denominado anlisis discriminante. Se
trata de una herramienta que permite asignar o clasificar nuevos individuos
dentro de los grupos previamente reconocidos o definidos; esto ltimo es la
diferencia entre el anlisis discriminante y el anlisis clster o de
conglomerados ya que el anlisis de conglomerados los grupos se forman pero
surgidos por la propia esencia de los datos.
El anlisis parte de una base de datos de n individuos en que se han medido p
variables cuantitativas independientes (explicativas), como perfil de cada uno
de ellos. Una variable cualitativa adicional (dependiente o clasificativa), con
dos o ms categoras. Esto se puede ver como una tabla n x ( p+ 1) a partir de
ella se obtendr un modelo discriminante contra el cual ser contrastado el
perfil de un nuevo individuo cuyo grupo se desconoce para, en funcin de un
resultado numrico, ser asignado al grupo ms probable; es importante
mencionar que cuanto mejor sea la informacin de partida ms fiable ser el
resultado de asignacin posteriores.
El anlisis discriminante es aplicable a muy diversas reas de conocimiento.
Se ha utilizado para distinguir grupos de patolgicos normales a partir de
resultados obtenidos en pruebas diagnsticas, como los parmetros
hemodinmicos en el mbito clnico mdico o las pruebas psicodiagnsticas en el
mbito clnico psicolgico. En el campo de los recursos humanos se aplica a la
seleccin de personal para realizar un filtrado de los currculos previo a la
entrevista personal. En banca se han utilizado para atribuir riesgo crediticio y
en las compaas aseguradoras para predecir la siniestralidad.
Para propsito de conocimiento se menciona que: el anlisis discriminante es
conceptualmente muy similar al anlisis de varianza multivariante de un factor.
Su propsito es el mismo que el del anlisis de regresin logstica, pero a
diferencia de l, solo admite variables cuantitativas. Si alguna de las variables
independientes es categrica, es preferible usar la regresin logstica.

Objetivos.

Objetivo general.
Aplicarle el anlisis discriminante a la base de datos denominada
coches.sav.

Objetivos especfi cos.

Explicar cada uno de los resultados producidos al aplicarle un anlisis


discriminante a la base de datos coches.sav.
Calcular la funcin discriminante y darle la interpretacin debida.

Marco Terico.
Anlisis discriminante.
El planteamiento estadstico del anlisis de discriminante es el siguiente. Se
dispone de un conjunto amplio de elementos que pueden venir de dos o ms
poblaciones distintas. En cada elemento se observa una variable aleatoria pdimensional X, cuya distribucin se conoce en las poblaciones consideradas. Se
desea clasificar un nuevo elemento, con valores de las variables conocidas, en
una de las poblaciones. Por ejemplo la primera aplicacin del anlisis
discriminante consisti en clasificar los restos de un crneo descubierto en
una excavacin como humano, utilizando la distribucin de medidas fsicas para
los crneos humanos y los de antropoides.
A falta de otra informacin, cualquier profesional se limita a utilizar su
propia experiencia o la de otros, o su intuicin, para anticipar el
comportamiento del nuevo elemento. Pero a medida que los problemas se hacen
ms complejos y las consecuencias de una mala decisin ms graves, las
impresiones subjetivas basadas en la propia intuicin o experiencia deben
ser sustituidas por argumentos ms consistentes. El anlisis discriminante
ayuda a identificar las caractersticas que diferencian (discriminan) a dos o
ms grupos y a crear una funcin capaz de distinguir con la mayor precisin
posible a los miembros de uno u otro grupo.
Obviamente, para llegar a conocer en qu se diferencian los grupos se
necesita disponer de la informacin (cuantificada en una serie de variables)
en la que suponemos que se diferencian. El anlisis discriminante es una
tcnica estadstica capaz de decirnos qu variables permiten diferenciar a
los grupos y cuntas de estas variables son necesarias para alcanzar la
mejor clasificacin posible. La pertenencia a los grupos, conocida de
antemano, se utiliza como variable dependiente (una variable categrica con
tantos valores discretos como grupos). Las variables en las que suponemos
que se diferencian los grupos se utilizan como variables independientes o
variables de clasificacin (tambin llamadas variables discriminantes).segn
se ver deben ser variables cuantitativas continuas o, al menos, admitir un
tratamiento numrico con significado.

El objetivo ltimo del anlisis discriminante es encontrar la combinacin


lineal de las variables independientes que mejor permite diferenciar
(discriminar) a los grupos. Una vez encontrada esa combinacin (la funcin
discriminante) podr ser utilizada para clasificar nuevos casos. Se trata de
una tcnica de anlisis multivariante que es capaz de aprovechar las
relaciones existentes entre una gran cantidad de variables independientes
para maximizar la capacidad de discriminacin.
El anlisis discriminante es conceptualmente muy similar al anlisis de
varianza multivariante de un factor. Su propsito es el mismo que el del
anlisis de regresin logstica, pero a diferencia de l, slo admite variables
cuantitativas. Si alguna de las variables independientes es categrica, es
preferible utilizar la regresin logstica.
Clasifi cacin con dos grupos.

Se trata de estudiar la aplicacin del anlisis discriminante a la clasificacin


de individuos en el caso de que dichos individuos se puedan asignar solamente
a dos grupos a partir de k variables clasificadoras. Este problema lo resolvi
Fisher analticamente su funcin discriminante la funcin discriminante de
Fischer D se obtiene como funcin lineal de k variables explicativas.
D=u1 X 1 +u2 X 2 ++uk X k
Las puntuaciones discriminantes son los valores que se obtienen al dar v
alores a X 1 , X 2 , , X k en la ecuacin.
D=u1 X 1 +u2 X 2 ++uk X k
Se trata de obtener los coeficientes de ponderacin

u j , si consideramos

que existe n observaciones, podemos expresar la funcin discriminante


para ellas:
D i=u1 X 1 i +u2 X 2 i++u k X ki i=1,2, ,n
Di . Es la puntuacin discriminante correspondiente a la observacin i-sima.
Expresando las variables explicativas en desviaciones respecto a la media,

Di

tambin estar y la relacin anterior se puede expresar en forma

matricial como sigue:


D1
D2
D3

X 11 X 21
X 12 X 22
X 1 n X 2n

Xk 1 U 1
Xk 2 U 2
X kn U k

En notacin compacta se puede escribir:


d= Xu
La variabilidad discriminante (suma de cuadrados de las variables
discriminantes en desviacin respecto a su media) se expresa como
t

d d=u X Xu
La matriz

Xt

es una matriz simtrica expresada en desviaciones respecto

a su media, por lo que puede considerarse como la matriz T de suma de


cuadrados (SCPC) total de las variables (explicativas) de la matriz X. segn
t
la teora del anlisis multivariante de la varianza, X X se puede
descomponer en la suma de la matriz entre grupos F y la matriz
intragrupos V (o residual). Se tiene:
X t X =T =F+ V

d t d=u t X t Xu=ut Tu=u t Fu+u t Wu


Los ejes discriminantes vendrn dados por los vectores propios asociados a
los valores propios de la matriz

W 1 F

ordenados de mayor a menor. Las

puntuaciones discriminantes corresponden con los valores obtenidos al


proyectar cada punto del espacio K-dimensional de las variables originales
sobre el eje discriminante.
Los centros de gravedad o centroides (vector de medias) son los estadsticos
bsicos que resumen la informacin sobre los grupos. Los centroides de los
grupos I y II sern los siguientes.

X1 I

X I = X2 I
XkI

X1,II

X II = X2,II
Xk , II

Con lo que para los grupos I y II se obtiene:


D I =u1 X1 I +u2 X2 I ++u k XkI

D II =u1 X1, II +u2 X2, II ++uk Xk , II


El punto de corte discriminante C se calcula mediante el promedio:
C=

D I + D II
2

El criterio para clasificar el individuo i es el siguiente:


Si

Di <C , se clasifica el individuo i en el grupo I

Si

Di C , se clasifica el individuo i en el grupo II

En general cuando, se clasifica un individuo en el grupo I si D-C > 0, y en grupo


II en otro caso.
A veces suelen construirse funciones discriminantes para cada grupo,

FI

F II , con la siguiente estructura:


F I =aI .1 X 1 + aI .2 X 2 ++a I . k X k C I
F II =aII .1 X 1+ a II .2 X 2 ++a II .k X k C II
Cuando se utilizan estas funciones, se clasifica u individuo en el grupo en el
que la funcin F j sea mayor. Este tipo de funciones clasificadoras tienen la
ventaja de que se generalizan fcilmente para el caso en el que existan ms
de dos grupo y viene implementado en la mayora del software estadstico.
Si hacemos:

a II .1 a
a II .2 a
aII .k a
C
( II C I )
( I . k ) X k
( I .2) X 2++
( I .1) X 1 +
F II F I =
u1 X 1+ u2 X 2++u k X k C=DC
Ya que se pueden obtener los coeficientes

u1 ,u 2 , . ,u k

Existen otros criterios de clasificacin, entre los que destacan el anlisis de la


regresin y la distancia de Mahalanobis.
La relacin entre el anlisis de regresin y el anlisis discriminante con dos
grupos es muy estrecha. Si se realiza un ajuste por mnimos cuadrados
tomando como variable dependiente la variable que defina la pertenencia a
uno u otro grupo y como variables explicativas a las variables clasificadoras,
se obtienen unos coeficientes que guardan una estricta proporcionalidad con
la funcin discriminante de Fisher.

Criterio de la distancia de Mahalanobis.

La distancia de Mahalanobis es una generalizacin de la distancia Eucldea


que tiene en cuenta la matriz de covarianzas intragrupos.
La distancia Eucldea es un caso particular de la distancia de Mahalanobis. La
distancia Eucldea no tiene en cuenta la dispersin entre las variables y las
relaciones existentes entre ellas, mientras que en la distancia de Mahalanobis
s que se descuentan esos factores al introducir la inversa de la matriz de
covarianza intragrupos. La distancia Eucldea ser.
p

d i , j =( X i X j ) I ( X i X j )= (X ih X jh )
2

h=1

Con el criterio de la distancia de Mahalanobis se calculan, para el punto i, las


dos distancias siguientes:
X
1
( iX I ) V W (X i X I )
2
DM i , I =
t

X
( iX II ) V W1 ( X i X II )
DM i , II 2=
t

La aplicacin de este criterio consiste en asignar cada individuo al grupo para


el que la distancia de Mahalanobis es menor.
Se observa que la distancia de Mahalanobis se calcula en el espacio de las
variables originales, mientras que en el criterio de Fisher se sintetizan todas
las variables en la funcin discriminante, que es la utilizada para realizar la
clasificacin.
Con los contrastes de significacin y evaluacin de la bondad de ajuste que se
realizan en el anlisis discriminante con dos grupos, se trata de dar respuesta
a tres tipos de cuestiones diferentes.
Se cumplen las hiptesis de homoscedasticidad del modelo?
Se cumple la hiptesis de normalidad?
Difieren significativamente las medias poblacionales de los dos grupos?

Clasifi cacin con ms de dos grupos.

En un caso general del anlisis discriminante con G grupos (G>2) llamado


anlisis discriminante mltiple, el nmero mximo de ejes discriminante que se
pueden obtener viene dado por min ( GI ,k ) . Por lo tanto pueden obtenerse
hasta G-I ejes determinantes, si el nmero de variables explicativas k es
mayor o igual que G-I, hecho que suele ser siempre cierto, ya que en las
aplicaciones prcticas el nmero de variables explicativas suele ser grande.
Cada una de las funciones discriminantes
de las k variables explicativas X, es decir.

Di

se obtiene como funcin lineal

D i=ui 1 X 1 +ui 2 X 2++u ik X k i=1,2, ,G1

Los G-1 ejes discriminantes vienen definidos respectivamente por los


vectores u1 ,u 2 , . ,u G1 definidos mediante las siguientes expresiones:

u 11
u1= u12
u1 k

u 21
u2= u 22
u2 k

uG11
uG1= u G12
uG1 k

Se puede concluir que los ejes discriminantes son las componentes de los
vectores propios normalizados asociados a los valores propios de la matriz
1

W F

ordenados en sentido decreciente (a mayor valor propio menor

eje discriminante).
En cuanto a los contrastes de significacin, en el anlisis discriminante
mltiple se plantean contrastes especficos para determinar si cada uno de
1
los valores i que se obtienen al resolver la ecuacin W Fu=u es
estadsticamente significativo, es decir, para determinar si contribuye o no a
la discriminacin entre los diferentes grupos.
Este tipo de contraste se realiza a partir del estadstico V de Barlett, que es
una funcin de la de Wilk y que se aproxima a una Chi-cuadrado. Su
expresin es la siguiente:
V ={ n1

|W |
|T|

K +G
ln() 2k (G 1)
2

La hiptesis nula de este contraste es

H 0 :u 1=u2==uG

y ha de ser

rechazada para que se pueda continuar con el anlisis discriminante, porque en


caso contrario las variables clasificadoras utilizadas no tendran poder
discriminante alguno.
No se olvide que la matriz W era la matriz de suma de cuadrados y productos
cruzados intragrupos en el anlisis de la varianza mltiple y T era la matriz
suma de cuadrados y productos cruzados total.

Tambin existe un estadstico de Barlett para contrastacin secuencial, que se


elabora como sigue:
1 |T |
1
1
1
1
=
=|W | |T|=|W T|=|W (W + F)|=| I +W F|
|W |

Pero como el determinante de una matriz es igual al producto de sus valores


propios, se tiene que:
1
=( 1+ 1) ( 1+ 2 ) (1+ G 1)

Esta expresin puede sustituirse en la expresin del estadstico V que fue


vista anteriormente, para obtener la expresin alternativa siguiente para el
estadstico de Barlett:
V ={ n1

K +G
K +G
ln ( )={ n1
2
2

G1

} ln (1+ )
k=1

2
k (G 1)

Si se rechaza la hiptesis nula de igualdad de medias, al menos uno de los ejes


discriminante es estadsticamente significativo, y ser el primero, porque es el
que ms poder discriminante tiene.
Una vez visto que el primer eje discriminante es significativo, se pasa a
analizar la significancia del segundo eje discriminante, analizando la
significancia de sucesivos ejes discriminantes. En este proceso secuencial se
va eliminando del estadstico V las races caractersticas que van resultando
significativas, deteniendo el proceso cuando se acepte la hiptesis nula de no
significatividad de los ejes discriminantes que queden por contrastar.
SPSS y el anlisis discriminaste.

Para poder interpretar los resultados es necesario conocer que es lo que


dicen los datos brindados por el programa SPSS; aunque algunos datos se les
restara menos importancia ya que solo se definir lo ms importantes de la
totalidad de informacin.
En la opcin descriptivos se van a encontrar las opciones que permiten obtener
informacin descriptiva y contraste univariantes y multivariantes sobre las
variables utilizadas en el anlisis, tales como.

Medias. Media, desviacin tpica, nmero de casos vlidos (ponderado

y no ponderado) para cada uno de los grupos y para la muestra total.


ANOVAs univariados. Tabla de ANOVA con estadsticos F que
permiten contrastar la hiptesis de igualdad de medias entre los
grupos en cada variable independiente. La tabla de ANOVA incluye
tambin el estadstico lambda de Wilk univariante. La informacin de
esta tabla suele utilizarse como prueba preliminar para detectar si
los grupos difieren en las variables de clasificacin seleccionadas; sin
embargo, debe tenerse en cuenta que una variable no significativa a nivel
univariante podra aportar informacin discriminativa a nivel
multivariante.
El estadstico Lambda de Wilk que expresa la proporcin de variabilidad
total no debida a la diferencia entre los grupos; sus hiptesis son:
H 0=las medias multivariantes de los grupos son iguales .
H a=las medias multivariantes de los grupos son diferentes .

M de Box. Prueba M de Box para el contraste de la hiptesis nula de


igualdad de las matrices de varianzas-covarianzas poblacionales. Uno
de los supuestos del anlisis discriminante es que todos los grupos
proceden de la misma poblacin y, ms concretamente, que las
matrices de varianzas-covarianzas poblacionales correspondientes a
cada grupo son iguales entre s.

Coeficientes de la funcin. Este apartado contiene opciones que permiten


seleccionar algunos coeficientes adicionales utilizados en la clasificacin de
los casos.

Coeficientes no tipificados. Coeficientes brutos de la funcin


cannica discriminante. Son los coeficientes utilizados por el
programa para calcular las puntuaciones discriminantes y l a ubicacin
de los centroides de los grupos.
Coeficientes de clasificacin de Fisher. Fisher (1936) present la
primera aproximacin a la clasificacin multivariante para el caso de
dos grupos. Los coeficientes propuestos por Fisher se utilizan

nicamente para la clasificacin. Al solicitar esta opcin se obtiene


una funcin de clasificacin para cada grupo. En el caso de dos grupos,
la diferencia entre ambas funciones da lugar a un vector de
coeficientes proporcional a los coeficientes no tipificados de la
funcin discriminante cannica.
Las opciones de clasificacin no afectan a la funcin discriminante; slo
influyen en el resultado de la clasificacin de los casos.
El proceso de clasificacin asigna o pronostica un grupo a todos los casos
utilizados en la estimacin d e la funcin discriminante y a todos los casos
que, aun no perteneciendo a ninguno de los grupos utilizados (es decir, aun
teniendo valor perdido en la variable de agrupacin), poseen informacin
completa en las variables independientes. Tambin es posible,
opcionalmente, clasificar los casos con informacin incompleta (es decir, con
valor perdido en alguna de las variables independientes).
Probabilidades previas. Las opciones de este apartado permiten controlar el
valor que adoptarn las probabilidades previas o probabilidades a priori:
Todos los grupos iguales. Se asigna la misma probabilidad a todos los
grupos. Si el anlisis discrimina entre k grupos, la probabilidad a priori
asignada a cada grupo vale 1/k. Con esta opcin el tamao de los
grupos no influya en la clasificacin.
Calcular segn el tamao de los grupos. La probabilidad a priori que
se asigna a cada grupo es proporcional a su tamao. Siendo N el
tamao de la muestra y ng el tamao de un grupo cualquiera, la
probabilidad a priori asignada a ese grupo es ng/N. Con esta opcin, si
un caso posee una puntuacin discriminante equidistante de los
centroides de dos grupos, el caso es clasificado en el grupo de mayor
tamao. Mediante sintaxis, es posible asignar a cada grupo
probabilidades a priori personalizadas.

Metodologa.
En este trabajo se hace uso de una base de datos llamada coches.sav, dentro

de ella la variable categrica denominada origen contiene 3 opciones pero para


propsitos prcticos se ha de eliminar la opcin etiquetada con el valor tres que
hace referencia a los vehculos de origen Japons, para esto se siguen los
siguientes pasos en el programa:
Datos Seleccionar casos
En el cuadro de dilogo se marca la opcin Si se satisface la condicin y
pulsar el botn Si, se establece la condicin de filtrado (origen < 3) y pulsar
continuar.
Ya con los datos filtrados se procede a realizar el anlisis discriminante, los
pasos son:
Analizar clasificar discriminante.
Ya en el cuadro de dilogo del anlisis discriminante estn los botones
estadsticos, Mtodo, Clasificar, Guardar; previamente marcar la opcin Usar
mtodo de inclusin por pasos (aparece abajo del cuadro de variables
independientes).
En las opciones del botn estadstico se seleccionan, para los descriptivos:
Medias, ANOVAS univariados, M de Box.
Para los coeficientes de la funcin se seleccionan: de Fisher, no tipificados.
Para las matrices, que pueden considerarse como opcionales ya que no provocan
mayor peso sobre el anlisis en s, se seleccionan todas las opciones.
En el botn mtodo nicamente corroborar la seleccin del mtodo Lambda de
Wilks, igualmente dejar intacta las opciones seleccionadas en el botn
clasificar. En el botn Guardar es opcional el marcar las opciones que all
aparecen.
Ya con los resultados brindados por el programa lo ms relevante es los
contrates de hiptesis tales como el de la igualdad de medias realizado a
travs del test de Lambda de Wilks as como la prueba M de Box para poder
contrastar o no la hiptesis de igualdad de matriz de covarianzas poblacionales.
El otro punto importante es la construccin de la funcin discriminante a
travs de la tabla denominada coeficientes de las funciones cannicas
discriminantes.

Descripcin de la base de datos.

La base de datos a utilizar en este trabajo para el tema del anlisis


discriminante se llama coches.sav contiene 7 variables denominadas consumo,
motor, CV, peso, acel, ao, origen. Dentro de ellas la variable denominada
origen es del tipo cualitativa (la que servir como la variable categrica) y hace
referencia al lugar geogrfico de fabricacin del vehculo; otra variable
cualitativa es el denominado ao que hace referencia al ao en que se present
al pblico el modelo. Consumo hace referencia a la cantidad de combustible
que consumo el vehculo, motor al tipo de motor, CV a la potencia del motor del
vehculo, peso al peso total del vehculo medido en kilogramos, acel a la
aceleracin del vehculo. Todas ellas del tipo cuantitativas.
La variable origen cuenta con tres opciones que son: EE.UU, Europa, Japn;
para el estudio siguiente la base de datos ha de ser filtrada ya que el inters
se centrara sobre EE.UU y Europa.

Aplicacin estadstica.
Si se observa la tabla 1 se puede observar que en lo relacionado al consumo del
vehculo los de EE.UU en promedio consumen ms, mismo fenmeno ocurre con
las variables potencia y peso total donde las cantidades son mayores que para
el grupo denominado Europa pero cuando se observa la variable aceleracin los
vehculos europeos tienden a ser ms rpidos en promedio algo lgico pues si
son los menos pesados podramos pensar que deben ser los ms rpidos aunque
se menciona que la diferencia no es mucha.
La otra columna hace referencia sobre la desviacin tpica un dato importante
ya que permitir tener un poco de cuidado al momento de aceptar lo propuesto
pues para el caso una desviacin grade puede dar indicios de la no
representatividad de las medias.

Tabla 1: Estadsticos descriptivos.


Pas de origen

EE.UU.

Consumo (l/100Km)

Media
12.98

Desv. tp.
3.864

N vlido (segn lista)


No
Ponderado
ponderados
s
250
250.000

Europa

Total

Potencia (CV)

119.50

39.755

250

250.000

Peso total (kg)

1122.08

268.324

250

250.000

Aceleracin 0 a 100 km/h (segundos)

14.86

2.809

250

250.000

Ao del modelo

75.48

3.707

250

250.000

9.00

2.147

70

70.000

Potencia (CV)

80.59

20.667

70

70.000

Peso total (kg)

811.74

164.683

70

70.000

Aceleracin 0 a 100 km/h (segundos)

16.85

3.068

70

70.000

Ao del modelo

75.53

3.484

70

70.000

Consumo (l/100Km)

12.11

3.921

320

320.000

Potencia (CV)

110.99

39.820

320

320.000

Peso total (kg)

1054.19

280.314

320

320.000

Aceleracin 0 a 100 km/h (segundos)

15.29

2.979

320

320.000

Ao del modelo

75.49

3.654

320

320.000

Consumo (l/100Km)

Tabla 2: Pruebas de igualdad de las medias de los grupos.


Lambda de Wilks
.823

F
68.393

Potencia (CV)

.836

Peso total (kg)

.790

Aceleracin 0 a 100 km/h (segundos)

Consumo (l/100Km)

Ao del modelo

gl1
1

gl2
318

Sig.
.000

62.257

318

.000

84.595

318

.000

.923

26.384

318

.000

1.000

.010

318

.922

La tabla 2 presenta el test de lambda Wilks, al observar los valores de la


columna denominada Sig. Permite rechazar la hiptesis de igualdad de las
medias entre los grupos para todas las variables a excepcin de la variable Ao
del modelo. Posiblemente porque est relacionada con una o ms variables
independientes que han sido tomadas para el estudio.

Tabla 3: Matrices de covarianzas poblacionales.


Pas de origen

EE.UU.

Consumo (l/100Km)
Potencia (CV)

Consumo
(l/100Km)
14.931

Potencia
(CV)
121.430

Peso total
(kg)
815.857

Aceleracin 0
a 100 km/h
(segundos)
-5.312

Ao del
modelo
-9.097

121.430

1580.444

8820.498

-80.917

-73.321

Peso total (kg)

Europa

Total

815.857

8820.498

71997.71

-310.871

-376.705

Aceleracin 0 a 100 km/h


(segundos)

-5.312

-80.917

-310.871

7.892

4.463

Ao del modelo

-9.097

-73.321

-376.705

4.463

13.745

4.609

32.493

213.232

-1.587

-2.899

Consumo (l/100Km)
Potencia (CV)

32.493

427.116

2142.515

-34.064

-9.488

Peso total (kg)

213.232

2142.515

27120.54

77.058

89.631

Aceleracin 0 a 100 km/h


(segundos)

-1.587

-34.064

77.058

9.411

1.530

Ao del modelo

-2.899

-9.488

89.631

1.530

12.137

Consumo (l/100Km)

15.373

128.390

894.909

-5.850

-7.761

Potencia (CV)

128.390

1585.630

9418.727

-83.815

-59.608

Peso total (kg)

894.909

9418.727

78575.72

-331.945

-277.240

-5.850

-83.815

-331.945

8.876

3.831

-7.761

-59.608

-277.240

3.831

13.354

Aceleracin 0 a 100 km/h


(segundos)
Ao del modelo

Tabla 4: Prueba de Box sobre la igualdad de las matrices de covarianzas.


M de Box

66.983

Aprox.

6.550

gl1

10

gl2

73227.701

Sig.

.000

Conforme a la informacin presentada en la tabla 4 se puede concluir que se ha


de rechazar la hiptesis de la igualdad de las matrices de varianza y covarianza
poblacional, algo que se puede corroborar con la informacin de la tabla 3.

Tabla 5: Estadstico Lambda de Wilks global para el modelo generado en cada paso.
Paso

F exacta

Nmero de
variables
1

Lambda
.790

3
4

gl1
1

gl2
1

gl3
318

Estadstico
84.595

.775

318

.740

.729

gl1
1

gl2
318.000

Sig.
.000

46.093

317.000

.000

318

37.021

316.000

.000

318

29.260

315.000

.000

La tabla 5 presenta la informacin del estadstico de Lambda pero solo para


cuatro variables ya que para el caso variable ao del modelo se deca que no
se poda rechazar la hiptesis de igualdad de medias, lo que provoca que aqu no
sea tomada en cuenta.
Tabla 6: Matriz de estructura.
Funcin
1
Peso total (kg)

.846

Potencia (CV)a

.782

Consumo (l/100Km)

.761

Aceleracin 0 a 100 km/h (segundos)

-.473

Ao del modelo

-.009

La tabla 6 contiene los valores de los coeficientes de correlacin brutos


variable y la funcin discriminante; la a que se observa a la par de la variable
potencia hace referencia a que esta variable no ser utilizada en el anlisis, es
decir no es necesaria para construir la funcin discriminante ya que al parecer
era la variable que tena un centroide muy cerca del centroide de la variable
ao del modelo lo que en su momento no permiti que se rechazara para esta
ltima variable la hiptesis de igualdad de medias segn el test de lambda de
Wilks.

Tabla 7: Coeficientes de las funciones cannicas discriminantes.


Funcin
1
Consumo (l/100Km)

.197

Peso total (kg)

.002

Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
(Constante)

-.091
.171
-15.664

La tabla 7 muestra los valores de los coeficientes y la constante de la funcin


discriminante, en este caso solo una funcin ya que solo existan dos grupos. La

funcin discriminante quedara:


D1=0.197Consumo+ 0.002Peso0.091Ace+0.171Ao15.664

Conclusin
En conclusin se observ que los vehculos del pas de los Estados Unidos son
ms pesados, potentes pero menos veloces en promedio con respecto a los
vehculos provenientes del continente europeo, todos estos datos se
mencionaron en su momento igual que los datos de las desviaciones, pero si se
estudiara ms a fondo a las variables seguramente se encontraran valores
atpicos que distorsionan las posibles predicciones que se puedan hacer. Por
ejemplo si se observa la variable peso se ve que su desviacin es muy alta lo
que se podran entender como una no representatividad de la media.
Pero como el motivo del anlisis discriminante no tiene este fin por lo cual la
mirada debe girar sobre la funcin discriminante hallada en la cual lo nico
que falta por mencionar es que la variable consumo tiene una mayor
ponderacin sobre ella

Aunque hasta ahora solo se ha trabajado el caso prctico de dos grupos, lo


cierto es que la tcnica puede utilizarse para efectuar clasificaciones en ms
de dos grupos (como se hizo mencin en el marco terico). No obstante la
interpretacin con ms de dos grupos la interpretacin de los resultados
cambia ligeramente (resultados brindados por el programa estadstico SPSS).
Adems con ms de dos grupos es posible obtener ms de una funcin
discriminante, en concreto es posible obtener tantas como nmero de grupos
menos uno (a no ser que el nmero de variables independientes sea menor
que el nmero de grupos, en cuyo caso el nmero de posibles funciones
discriminantes ser igual al nmero de variables menos uno).

You might also like