Professional Documents
Culture Documents
TEMA:
Anlisis discriminante.
ASIGNATURA:
Problema de Estadstica Aplicada
(P.E.A)
DOCENTE:
Licda. Claudia Lissett Ramos Barrientos.
ALUMNOS:
Geovani Oswaldo
Josu Isaac Blanco
Henry Oswaldo Martnez
CARRERA:
LICENCIATURA EN ESTADSTICA (L30941)
CICLO II / 2014
Introduccin.
En el presente trabajo se describe una tcnica estadstica de inters especial
en el mundo de la investigacin, es el denominado anlisis discriminante. Se
trata de una herramienta que permite asignar o clasificar nuevos individuos
dentro de los grupos previamente reconocidos o definidos; esto ltimo es la
diferencia entre el anlisis discriminante y el anlisis clster o de
conglomerados ya que el anlisis de conglomerados los grupos se forman pero
surgidos por la propia esencia de los datos.
El anlisis parte de una base de datos de n individuos en que se han medido p
variables cuantitativas independientes (explicativas), como perfil de cada uno
de ellos. Una variable cualitativa adicional (dependiente o clasificativa), con
dos o ms categoras. Esto se puede ver como una tabla n x ( p+ 1) a partir de
ella se obtendr un modelo discriminante contra el cual ser contrastado el
perfil de un nuevo individuo cuyo grupo se desconoce para, en funcin de un
resultado numrico, ser asignado al grupo ms probable; es importante
mencionar que cuanto mejor sea la informacin de partida ms fiable ser el
resultado de asignacin posteriores.
El anlisis discriminante es aplicable a muy diversas reas de conocimiento.
Se ha utilizado para distinguir grupos de patolgicos normales a partir de
resultados obtenidos en pruebas diagnsticas, como los parmetros
hemodinmicos en el mbito clnico mdico o las pruebas psicodiagnsticas en el
mbito clnico psicolgico. En el campo de los recursos humanos se aplica a la
seleccin de personal para realizar un filtrado de los currculos previo a la
entrevista personal. En banca se han utilizado para atribuir riesgo crediticio y
en las compaas aseguradoras para predecir la siniestralidad.
Para propsito de conocimiento se menciona que: el anlisis discriminante es
conceptualmente muy similar al anlisis de varianza multivariante de un factor.
Su propsito es el mismo que el del anlisis de regresin logstica, pero a
diferencia de l, solo admite variables cuantitativas. Si alguna de las variables
independientes es categrica, es preferible usar la regresin logstica.
Objetivos.
Objetivo general.
Aplicarle el anlisis discriminante a la base de datos denominada
coches.sav.
Marco Terico.
Anlisis discriminante.
El planteamiento estadstico del anlisis de discriminante es el siguiente. Se
dispone de un conjunto amplio de elementos que pueden venir de dos o ms
poblaciones distintas. En cada elemento se observa una variable aleatoria pdimensional X, cuya distribucin se conoce en las poblaciones consideradas. Se
desea clasificar un nuevo elemento, con valores de las variables conocidas, en
una de las poblaciones. Por ejemplo la primera aplicacin del anlisis
discriminante consisti en clasificar los restos de un crneo descubierto en
una excavacin como humano, utilizando la distribucin de medidas fsicas para
los crneos humanos y los de antropoides.
A falta de otra informacin, cualquier profesional se limita a utilizar su
propia experiencia o la de otros, o su intuicin, para anticipar el
comportamiento del nuevo elemento. Pero a medida que los problemas se hacen
ms complejos y las consecuencias de una mala decisin ms graves, las
impresiones subjetivas basadas en la propia intuicin o experiencia deben
ser sustituidas por argumentos ms consistentes. El anlisis discriminante
ayuda a identificar las caractersticas que diferencian (discriminan) a dos o
ms grupos y a crear una funcin capaz de distinguir con la mayor precisin
posible a los miembros de uno u otro grupo.
Obviamente, para llegar a conocer en qu se diferencian los grupos se
necesita disponer de la informacin (cuantificada en una serie de variables)
en la que suponemos que se diferencian. El anlisis discriminante es una
tcnica estadstica capaz de decirnos qu variables permiten diferenciar a
los grupos y cuntas de estas variables son necesarias para alcanzar la
mejor clasificacin posible. La pertenencia a los grupos, conocida de
antemano, se utiliza como variable dependiente (una variable categrica con
tantos valores discretos como grupos). Las variables en las que suponemos
que se diferencian los grupos se utilizan como variables independientes o
variables de clasificacin (tambin llamadas variables discriminantes).segn
se ver deben ser variables cuantitativas continuas o, al menos, admitir un
tratamiento numrico con significado.
u j , si consideramos
Di
D1
D2
D3
X 11 X 21
X 12 X 22
X 1 n X 2n
Xk 1 U 1
Xk 2 U 2
X kn U k
d d=u X Xu
La matriz
Xt
W 1 F
X1 I
X I = X2 I
XkI
X1,II
X II = X2,II
Xk , II
D I + D II
2
Si
FI
a II .1 a
a II .2 a
aII .k a
C
( II C I )
( I . k ) X k
( I .2) X 2++
( I .1) X 1 +
F II F I =
u1 X 1+ u2 X 2++u k X k C=DC
Ya que se pueden obtener los coeficientes
u1 ,u 2 , . ,u k
d i , j =( X i X j ) I ( X i X j )= (X ih X jh )
2
h=1
X
( iX II ) V W1 ( X i X II )
DM i , II 2=
t
Di
u 11
u1= u12
u1 k
u 21
u2= u 22
u2 k
uG11
uG1= u G12
uG1 k
Se puede concluir que los ejes discriminantes son las componentes de los
vectores propios normalizados asociados a los valores propios de la matriz
1
W F
eje discriminante).
En cuanto a los contrastes de significacin, en el anlisis discriminante
mltiple se plantean contrastes especficos para determinar si cada uno de
1
los valores i que se obtienen al resolver la ecuacin W Fu=u es
estadsticamente significativo, es decir, para determinar si contribuye o no a
la discriminacin entre los diferentes grupos.
Este tipo de contraste se realiza a partir del estadstico V de Barlett, que es
una funcin de la de Wilk y que se aproxima a una Chi-cuadrado. Su
expresin es la siguiente:
V ={ n1
|W |
|T|
K +G
ln() 2k (G 1)
2
H 0 :u 1=u2==uG
y ha de ser
K +G
K +G
ln ( )={ n1
2
2
G1
} ln (1+ )
k=1
2
k (G 1)
Metodologa.
En este trabajo se hace uso de una base de datos llamada coches.sav, dentro
Aplicacin estadstica.
Si se observa la tabla 1 se puede observar que en lo relacionado al consumo del
vehculo los de EE.UU en promedio consumen ms, mismo fenmeno ocurre con
las variables potencia y peso total donde las cantidades son mayores que para
el grupo denominado Europa pero cuando se observa la variable aceleracin los
vehculos europeos tienden a ser ms rpidos en promedio algo lgico pues si
son los menos pesados podramos pensar que deben ser los ms rpidos aunque
se menciona que la diferencia no es mucha.
La otra columna hace referencia sobre la desviacin tpica un dato importante
ya que permitir tener un poco de cuidado al momento de aceptar lo propuesto
pues para el caso una desviacin grade puede dar indicios de la no
representatividad de las medias.
EE.UU.
Consumo (l/100Km)
Media
12.98
Desv. tp.
3.864
Europa
Total
Potencia (CV)
119.50
39.755
250
250.000
1122.08
268.324
250
250.000
14.86
2.809
250
250.000
Ao del modelo
75.48
3.707
250
250.000
9.00
2.147
70
70.000
Potencia (CV)
80.59
20.667
70
70.000
811.74
164.683
70
70.000
16.85
3.068
70
70.000
Ao del modelo
75.53
3.484
70
70.000
Consumo (l/100Km)
12.11
3.921
320
320.000
Potencia (CV)
110.99
39.820
320
320.000
1054.19
280.314
320
320.000
15.29
2.979
320
320.000
Ao del modelo
75.49
3.654
320
320.000
Consumo (l/100Km)
F
68.393
Potencia (CV)
.836
.790
Consumo (l/100Km)
Ao del modelo
gl1
1
gl2
318
Sig.
.000
62.257
318
.000
84.595
318
.000
.923
26.384
318
.000
1.000
.010
318
.922
EE.UU.
Consumo (l/100Km)
Potencia (CV)
Consumo
(l/100Km)
14.931
Potencia
(CV)
121.430
Peso total
(kg)
815.857
Aceleracin 0
a 100 km/h
(segundos)
-5.312
Ao del
modelo
-9.097
121.430
1580.444
8820.498
-80.917
-73.321
Europa
Total
815.857
8820.498
71997.71
-310.871
-376.705
-5.312
-80.917
-310.871
7.892
4.463
Ao del modelo
-9.097
-73.321
-376.705
4.463
13.745
4.609
32.493
213.232
-1.587
-2.899
Consumo (l/100Km)
Potencia (CV)
32.493
427.116
2142.515
-34.064
-9.488
213.232
2142.515
27120.54
77.058
89.631
-1.587
-34.064
77.058
9.411
1.530
Ao del modelo
-2.899
-9.488
89.631
1.530
12.137
Consumo (l/100Km)
15.373
128.390
894.909
-5.850
-7.761
Potencia (CV)
128.390
1585.630
9418.727
-83.815
-59.608
894.909
9418.727
78575.72
-331.945
-277.240
-5.850
-83.815
-331.945
8.876
3.831
-7.761
-59.608
-277.240
3.831
13.354
66.983
Aprox.
6.550
gl1
10
gl2
73227.701
Sig.
.000
Tabla 5: Estadstico Lambda de Wilks global para el modelo generado en cada paso.
Paso
F exacta
Nmero de
variables
1
Lambda
.790
3
4
gl1
1
gl2
1
gl3
318
Estadstico
84.595
.775
318
.740
.729
gl1
1
gl2
318.000
Sig.
.000
46.093
317.000
.000
318
37.021
316.000
.000
318
29.260
315.000
.000
.846
Potencia (CV)a
.782
Consumo (l/100Km)
.761
-.473
Ao del modelo
-.009
.197
.002
Aceleracin 0 a 100
km/h (segundos)
Ao del modelo
(Constante)
-.091
.171
-15.664
Conclusin
En conclusin se observ que los vehculos del pas de los Estados Unidos son
ms pesados, potentes pero menos veloces en promedio con respecto a los
vehculos provenientes del continente europeo, todos estos datos se
mencionaron en su momento igual que los datos de las desviaciones, pero si se
estudiara ms a fondo a las variables seguramente se encontraran valores
atpicos que distorsionan las posibles predicciones que se puedan hacer. Por
ejemplo si se observa la variable peso se ve que su desviacin es muy alta lo
que se podran entender como una no representatividad de la media.
Pero como el motivo del anlisis discriminante no tiene este fin por lo cual la
mirada debe girar sobre la funcin discriminante hallada en la cual lo nico
que falta por mencionar es que la variable consumo tiene una mayor
ponderacin sobre ella