Professional Documents
Culture Documents
Aspectos Preliminares
Topicos Especiales en Control de Calidad
Profesora: Nel Gonzalez A.
Posgrado de Estadstica
UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELL
IN
24 de marzo de 2004
2
Indice General
1 DATOS MULTIVARIADOS 5
1.1 Variables y observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Matriz de dise no y estadsticos muestrales multivariados . . . . . . . . . . . . . . . . . . . 5
1.3 Medidas de dispersion multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Combinaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.1 Transformacion de escalamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.2 Transformacion de componentes principales . . . . . . . . . . . . . . . . . . . . . . 10
1.5.3 Transformacion de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Vision geometrica de la matriz de dise no . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.1 Espacio objeto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.2 Espacio variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 LA DISTRIBUCI
ON NORMAL MULTIVARIADA 13
2.1 Densidad normal multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 La distribucion normal bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Contornos de densidad constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Algunas propiedades de la distribucion normal multivariada . . . . . . . . . . . . . . . . . 15
3 DISTANCIA ESTAD
2
.
.
.
p
_
_
_
_
_
(1.1)
y matriz de varianzas covarianzas
=
_
_
_
_
_
2
1
12
. . .
1p
12
2
2
. . .
2p
.
.
.
.
.
.
.
.
.
.
.
.
1p
2p
. . .
2
p
_
_
_
_
_
(1.2)
donde
ij
corresponde a la covarianza entre las variables i y j y
2
i
es la varianza de la variable i. El
iesimo vector de observacion corresponde a:
x
i
=
_
_
_
_
_
x
i1
x
i2
.
.
.
x
ip
_
_
_
_
_
(1.3)
entonces la matriz de dise no puede escribirse en terminos de sus n las, como se indica a continuacion:
X
np
=
_
_
_
_
_
x
t
1
x
t
2
.
.
.
x
t
n
_
_
_
_
_
(1.4)
Denotemos ahora x
(j)
la jesima columna de X, entonces X puede escribirse en terminos de sus p
columnas, as:
X
np
=
_
x
(1)
, x
(2)
, . . . x
(p)
(1.5)
Si las n las x
i
conforman una muestra aleatoria de vectores de '
p
, de una distribucion pvariada el
vector de medias muestrales correspondiente es:
X =
1
n
n
i=1
x
i
=
_
_
_
_
_
x
1
x
2
.
.
.
x
p
_
_
_
_
_
(1.6)
Tambien podemos escribir la media muestral en terminos de la matriz de dise no:
X =
1
n
X
t
1
n1
(1.7)
donde 1
n1
es un vector columna de dimension n con todos sus elementos iguales a 1.
1.2. MATRIZ DE DISE
NO Y ESTAD
i=1
_
x
i
X
_ _
x
i
X
_
t
=
1
n
n
i=1
x
i
x
t
i
X
X
t
(1.8)
o en terminos de la matriz de dise no:
S
n
=
1
n
X
t
X
X
X
t
=
1
n
_
X
t
X
1
n
_
X
t
1
n1
_ _
1
t
1n
X
_
=
1
n
X
t
_
I
nn
1
n
1
n1
1
t
1n
X
=
1
n
X
t
HX
(1.9)
Donde H de orden n n es conocida como la matriz de centramiento, y es tal que:
1. H
t
= H, es decir, es simetrica,
2. H
2
= H, es decir, es idempotente, y
3. H es semidenida positiva
Sea a '
p
, entonces:
a
t
S
n
a =
1
n
a
t
X
t
H X a
=
1
n
a
t
X
t
H
t
H X a
(1.10)
Sea Y = H X a, Y '
n
, entonces
a
t
S
n
a =
1
n
Y
t
Y
=
1
n
|Y|
2
0
(1.11)
por tanto, S
n
es semidenida positiva. Pero para datos continuos esperamos que S
n
sea denida positiva
si n p + 1.
Ahora considere a:
S
u
=
1
n1
X
t
HX
=
n
n1
S
n
(1.12)
este es un estimador insesgado de la matriz de varianzas covarianzas.
Tambien podemos expresar a S
n
en terminos de su ijesimo elemento:
S
ij
=
1
n
n
r=1
(x
ri
x
i
) (x
rj
x
j
) (1.13)
que corresponde al estimador sesgado de
ij
. luego, para i = j se tiene que
S
ii
= S
2
i
=
1
n
n
r=1
(x
ri
x
i
)
2
(1.14)
8 CAP
r=1
(x
ri
x
i
) (x
rj
x
j
) (1.15)
Considere ahora
r
ij
=
S
ij
S
i
S
j
(1.16)
que corresponde a un estimador del coeciente de correlacion entre las variables i y j. Sea R = r
ij
la
matriz de correlaciones muestrales, puede demostrarse que esta es semidenida positiva. Considere ahora
a la matriz de orden p p D = diag(S
i
) (una matriz diagonal con las estimaciones de las desviaciones
estandar en su diagonal principal), entonces
R = D
1
S
n
D
1
(1.17)
por ende
S
n
= D R D (1.18)
reemplazando (1.9) en (1.17), se tiene:
R =
1
n
D
1
X
t
HXD
1
=
1
n
_
D
1
X
t
H
t
_ _
HXD
1
_
(1.19)
Sea a '
p
, entonces:
a
t
Ra =
1
n
a
t
_
D
1
X
t
H
t
_ _
HXD
1
_
a
=
1
n
Y
t
Y
=
1
n
|Y|
2
0
(1.20)
donde Y =
_
HXD
1
_
; en (1.20) queda demostrado que R es una matriz semidenida positiva.
1.3 Medidas de dispersion multivariadas
Existen dos estadsticos que nos permiten obtener una medida multivariada de la varianza:
La varianza generalizada, que corresponde a [S
n
[, donde [ . [ es la funcion determinante.
La variacion total, dada por tr(S
n
), donde tr(.) denota la funcion traza.
En ambas medidas, valores grandes dan indicio de una alta dispersion alrededor de
X. Sin embargo, cada
medida reeja aspectos diferentes de la variabilidad de los datos. La varianza generalizada juega un papel
importante en la estimacion de maxima verosimilitud, en tanto que la variacion total es un concepto util
en el analisis de componentes principales.
1.4 Combinaciones lineales
Combinaciones lineales apropiadas de las p variables involucradas en un contexto multivariado, pueden
proporcionar mas informacion que una multiplicidad de dichas variables, a menudo, debido a la reduccion
de la dimension de los datos. Las combinaciones lineales tambien pueden simplicar la estructura de la
1.4. COMBINACIONES LINEALES 9
matriz de varianzas covarianzas haciendo mas directa la interpretacion de los datos.
Sea una combinacion lineal
y
i
= a
1
x
i1
+a
2
x
i2
+ +a
p
x
ip
i = 1, 2, . . . , n (1.21)
Note que y
i
es un escalar. Podemos hallar la media de las n combinaciones lineales, as:
y = a
t
1p
X
p1
(1.22)
o bien, deniendo el vector que contiene las n combinaciones lineales
Y = X
np
a
p1
(1.23)
entonces
y =
1
n
a
t
X
t
1
n1
(1.24)
y la varianza de las n combinaciones lineales, corresponde a
S
2
y
=
1
n
n
i=1
(y
i
y)
2
=
1
n
n
i=1
a
t
_
x
i
X
_ _
x
i
X
_
t
a
= a
t
S
n
a
(1.25)
Tambien puede hablarse de transformaciones lineales q dimensionales, en ese caso:
y
iq1
= A
qp
x
i
+b
q1
i = 1, 2, . . . , n (1.26)
por tanto las n transformaciones lineales q dimensionales pueden escribirse matricialmente como
Y
nq
= X
np
A
t
pq
+1
n1
b
t
1q
(1.27)
Usualmente q p. El vector de medias de Y
nq
esta dado por:
Y
q1
=
1
n
Y
t
qn
1
n1
=
1
n
_
X
np
A
t
pq
+1
n1
b
t
1q
_
t
1
n1
=
1
n
_
A
qp
X
t
pn
1
n1
+b
q1
1
t
1n
1
n1
_
t
= A
X+b
(1.28)
La matriz de varianzas covarianzas de Y
nq
es (tener en cuenta que H = I
n
1
n
1
n1
1
t
1n
, 1
t
1n
H
nn
=
0
1n
y H
nn
1
n1
= 0
n1
):
S
Y
=
1
n
Y
t
HY
=
1
n
_
XA
t
+1b
t
_
t
H
_
XA
t
+1b
t
_
=
1
n
AX
t
HXA
t
= A
_
1
n
X
t
HX
_
A
t
= AS
n
A
t
(1.29)
10 CAP
X
_
i = 1, 2, . . . , n
D = diag (S
i
)
S
i
=
1
n
n
r=1
(x
ri
x
i
)
2
(1.30)
Esta transformacion escala las variables centradas de modo que tengan varianza unitaria. Note que Y
i
tiene la forma Y
i
= Ax
i
+ b con A = D
1
y b = D
1
X
t
D
1
=
_
X1
n1
X
t
_
D
1
=
_
X1
n1
_
1
n
X
t
1
n1
_
t
_
D
1
=
_
I
n
1
n
1
n1
1
t
1n
_
XD
1
= HXD
1
(1.31)
Aplicando (1.28) se muestra facilmente que
Y
n1
= 0
n1
, mientras que por (1.29) y (1.17) se tiene que
S
Y
= D
1
S
n
D
1
= R (1.32)
1.5.2 Transformaci on de componentes principales
Por el teorema de descomposicion espectral del algebra lineal S
n
puede escribirse
S
n
= GG
t
(1.33)
y ademas
= G
t
S
n
G (1.34)
donde G
pp
es una matriz ortogonal formada a partir de los vectores propios de S
n
, es una matriz
diagonal de valores propios de S
n
, con
1
2
p
0.
Sea W
i
el vector de transformacion de la observacion i dado por:
W
i
= G
t
_
x
i
X
_
, i = 1, 2, . . . , n (1.35)
1.5. TRANSFORMACIONES 11
Observe que W
i
= Ax
i
+b con A = G
t
y b = G
t
X
t
G
=
_
X1
n1
X
t
_
G
=
_
X1
n1
_
1
n
X
t
1
n1
_
t
_
G
=
_
I
n
1
n
1
n1
1
t
1n
_
XG
= HXG = HXG
t
(1.36)
Aplicando (1.28) se muestra que
Y
n1
= 0
n1
, mientras que por (1.29) y (1.34) se tiene que:
S
W
= G
t
S
n
G = (1.37)
Las p columnas de la matriz W
np
son llamadas componentes principales y representan combinaciones
lineales incorrelacionadas de las p variables originales es decir, la varianza de las componentes principales
y que seg un (1.37) tienen respectivamente varianza igual a
1
2
p
.
En este caso, la varianza generalizada [S
n
[ = [[ =
p
i=1
i
y la variacion total tr (S
n
) = tr () =
p
i=1
i
1.5.3 Transformaci on de Mahalanobis
Si S
n
> 0 (denida positiva) tiene una unica raz cuadrada denida positiva S
1/2
n
. Sea
Z
i
= S
1/2
n
_
x
i
X
_
, i = 1, 2, . . . , n (1.38)
Observe que Z
i
= Ax
i
+b con A = S
1/2
n
y b = S
1/2
n
X, es decir, es una transformacion lineal dada
por (1.26) con q = n. De nuevo, por la ecuacion (1.27) la matriz de transformacion es:
Z
np
= XA
t
+1
n1
b
t
= XS
1/2
n
1
n1
X
t
S
1/2
n
=
_
X1
n1
X
t
_
S
1/2
n
=
_
X1
n1
_
1
n
X
t
1
n1
_
t
_
S
1/2
n
=
_
I
n
1
n
1
n1
1
t
1n
_
XS
1/2
n
= HXS
1/2
n
(1.39)
Por (1.28) se muestra que
Z
n1
= 0
n1
, mientras que por (1.29) se tiene que:
S
Z
= S
1/2
n
S
n
S
1/2
n
= I
p
(1.40)
12 CAP
ON NORMAL
MULTIVARIADA
En la practica existen muchos problemas multivariados en los cuales la teora normal funciona apropi-
adamente. Este es el supuesto con el cual se han dise nado los esquemas de control por lo cual se presenta
a continuacion una breve descripcion de esta distribucon y algunas de sus propiedades.
2.1 Densidad normal multivariada
Recordemos la forma de la densidad normal univariada:
f (x) =
1
2
exp
_
1
2
(x )
2
2
_
< x <
El termino
(x )
2
2
= (x )
_
2
_
1
(x )
mide el cuadrado de la distancia de x a en unidades estandar. Para el caso pvariado donde x es un
vector de observaciones p 1, esta expresion correspondera a
(x )
t
1
(x ) (2.1)
con el vector de medias de dimension p 1 (ver (1.1)) y la matriz de varianzas covarianzas de
dimension p p (ver (1.2)).
La constante de normalizacion (2)
1/2
_
2
_
1/2
debe ser cambiada por aquella con la cual el volu-
men abajo de la supercie de la funcion de densidad multivariada es igual a 1. Esta constante es
(2)
p/2
[[
1/2
, por tanto para el vector aleatorio x = [x
1
, x
2
, . . . , x
p
]
t
N
p
(, ), la funcion de den-
sidad normal pvariada es:
f (x) =
1
(2)
p/2
[[
1/2
exp
_
1
2
(x )
t
1
(x )
_
(2.2)
13
14 CAP
ITULO 2. LA DISTRIBUCI
ON NORMAL MULTIVARIADA
2.2 La distribucion normal bivariada
Un caso particular de (2.2) es para p = 2, con
12
= corr (x
1
, x2)
f (x
1
, x
2
) =
1
2
1
1
2
12
exp
_
1
2(1
2
12
)
_
_
x11
1
_
2
2
12
_
x
1
1
__
x
2
2
_
+
_
x
2
2
_
2
__
< x
1
, x
2
<
(2.3)
La gura (2.1) ilustra varias funciones normales bivariadas.
X
Y
Z
rho=0.85
X
Y
Z
rho=0.5
X
Y
Z
rho=0.0
X
Y
Z
rho=0.85
Distribucin Normal Bivariada
Figura 2.1: Distribuciones normales bivariadas
2.3 Contornos de densidad constante
Considere la gura (2.1), si cortamos la supercie con un plano perpendicular al eje z = f (x
1
, x
2
), la
traza resultante sobre dicho plano sera un contorno elptico, y es tal que comprende todos los pares
(x
1
, x
2
) tales que (x )
t
1
(x ) es constante. En general, denimos los contornos de densidad
constante como la supercie de un elipsoide centrado en donde
_
x[x (x )
t
1
(x ) = c
2
_
(2.4)
Los ejes de cada elipsoide de densidad constante estan en la direccion de los vectores propios de y sus
longitudes son proporcionales a las races cuadradas de los valores propios de . Es decir, los ejes de estos
2.4. ALGUNAS PROPIEDADES DE LA DISTRIBUCI
ON NORMAL MULTIVARIADA 15
elipsoides son c
i
e
i
, donde e
i
=
i
e
i
. Si elegimos c
2
=
2
p
(), donde
2
p
() es el percentil superior
100% de la distribucion chi cuadrado con p grados de libertad, entonces los contornos obtenidos conducen
a contornos que contienen 100(1 )% de la probabilidad abajo de la densidad normal pvariada.
x
1
x
2
2
0.3
0.5
0.7
0.9
Figura 2.2: Contornos de probabilidad del 30%, 50%, 70% y 90%, de una normal bivariada con = (1, 2)
t
,
2
1
= 4,
2
2
= 1, y
12
= 0.95
2.4 Algunas propiedades de la distribucion normal multivariada
Sea el vector aleatorio x = [x
1
, x
2
, . . . , x
p
]
t
N
p
(, ), las siguientes propiedades son ciertas para x:
1. Combinaciones lineales de las componentes de x se distribuyen en forma normal. Tenemos dos
casos:
Considere el vector a = [a
1
, a
2
, . . . , a
p
]
t
. La combinacion lineal dada por
a
t
x = a
1
x
1
+a
2
x
2
+ +a
p
x
p
a
t
x N
_
a
t
, a
t
a
_
, a '
p
(2.5)
da origen a una variable aleatoria normal univariada.
Considere la matriz
A =
_
_
_
_
_
a
11
a
12
a
1p
a
21
a
22
a
2p
.
.
.
.
.
.
.
.
.
a
q1
a
q2
a
qp
_
_
_
_
_
16 CAP
ITULO 2. LA DISTRIBUCI
ON NORMAL MULTIVARIADA
El vector de combinaciones lineales dado por
Ax =
_
_
_
_
_
a
11
x
1
+a
12
x
2
+ +a
1p
x
p
a
21
x
1
+a
22
x
2
+ +a
2p
x
p
.
.
.
a
q1
x
1
+a
q2
x
2
+ +a
qp
x
p
_
_
_
_
_
Ax N
q
_
A, AA
t
_
, A '
qp
(2.6)
origina un vector aleatorio que se distribuye en forma normal qvariada. En general, trans-
formaciones lineales del tipo Ax +b son normales multivariadas, si x N
p
(, ).
2. Todos los subconjuntos de componentes de x tienen distribucion normal multivariada.
3. Covarianzas cero implica que las correspondientes componentes son independientes.
4. Las distribuciones marginales de las componentes de x son normales.
5. Las distribuciones condicionales de las componentes de x son normales (multivariadas, para p > 2).
6. Dada una muestra aleatoria de n observaciones pvariadas, x
1
, x
2
, . . . , x
n
con x
i
N (, ) los
estimadores de maxima verosimilitud de y son respectivamente
1
(x )
2
p
, dado que si hacemos z =
1/2
(x ), entonces (x )
t
1
(x ) =
z
t
z =
p
j=1
z
2
j
, donde los z
j
N (0, 1), e independientes, y z
2
i
2
1
, por tanto la suma de p variables
chicuadrados independientes con 1 grado de libertad, es chi cuadrado con p grados de libertad.
Captulo 3
DISTANCIA ESTAD
ISTICA vs.
DISTANCIA EUCLIDIANA
3.1 Distancia euclidiana
Generalmente es referida como distancia de linea recta. Considere un caso bidimensional con variables
X
1
y X
2
y el vector de medias
t
= (
1
,
2
); sea el par de observaciones (x
1
, x
2
), entonces seg un (1.43)
la distancia de este punto al vector de medias es:
D
2
euc
=
_
(x
1
1
)
2
+ (x
2
2
)
2
_
(3.1)
esta cantidad no da cuenta ni de la variabilidad de las variables X
1
y X
2
ni de la covaroacion entre ellas.
Si representamos gracamente la distancia para todos los pares de puntos que estan ubicados a la misma
distancia del vector de medias, la gura resultante sera una circunferencia, como muestra la gura 3.1.
3.2 Distancia estadstica
Una medida de distancia que s tiene en cuenta la presencia de relaciones lineales entre las variables y
la diferencia en la variabilidad de estas es la distancia estadstica o distancia de mahalanobis respecto al
vector de medias (ver la ecuacion (1.44)). Consideremos de nuevo el caso bivariado, para una muestra de
n observaciones, considere los siguientes estimadores insesgados:
La covarianza muestral entre X
1
y X
2
S
12
=
_
1
n 1
_
n
i=1
(x
i1
x
1
) (x
i2
x
2
) (3.2)
La varianza muestral de las n observaciones de la variable X
1
S
2
1
=
_
1
n 1
_
n
i=1
(x
i1
x
1
)
2
(3.3)
La varianza muestral de la variable X
2
S
2
2
=
_
1
n 1
_
n
i=1
(x
i2
x
2
)
2
(3.4)
17
18 CAP
2
p(x
1
, x
2
)
Figura 3.1: Representacion geometrica de la distancia euclidiana
Por tanto la distancia estadstica de la iesima observacion al vector de medias muestral, esta dada por:
SD
2
i
=
_
x
i
X
_
t
S
1
u
_
x
i
X
_
(3.5)
Con
X
t
= (x
i1
, x
i2
) y
S
u
=
_
S
2
1
S
12
S
12
S
2
2
_
entonces
SD
2
i
=
1
1 r
2
12
_
(x
1
x
1
)
2
S
2
1
2r
12
(x
1
x
1
) (x
2
x
2
)
S
1
S
2
+
(x
2
x
2
)
2
S
2
2
_
(3.6)
donde r
12
=
S12
S
1
S
2
es el coeciente de correlacion muestral entre X
1
y X
2
. Suponiendo que el par de
variables se distribuyen conjuntamente en forma normal bivariada, geometricamente, la region denida
por todos los puntos que poseen la misma distancia estadstica lucira como una elipse, por ejemplo,
como en la gura 3.2, donde la conguracion asume correlacion positiva. Solo cuando las dos variables
son independientes y de varianza igual, la gura geometrica que representa a todos los puntos que tienen
la misma distancia estadstica respecto al centro de los datos, sera una circunferencia como en la gura 1.2.
El control estadstico multivariado esta basado en metodos que usan el concepto de la distancia es-
tadstica.
3.2. DISTANCIA ESTAD
ISTICA 19
x
1
x
2
p(x
1
, x
2
)
Figura 3.2: Representacion geometrica de la distancia estadstica, de dos variables con distribucion normal
bivariada, coeciente de correlacion positivo.
20 CAP
i=1
x
i
x
t
i
_
x
i
N
p
(0, ) (4.1)
Las formas cuadraticas a menudo conducen a la distribucion Wishart, la cual constituye una general-
izacion de la distribucion chi cuadrado univariada, y tiene muchas propiedades similares.
Denicion 4.1.1: Si M
pp
puede descomponerse en M = X
t
X, donde X
np
es una matriz de datos
de una distribucion N
p
(0, ), se dice que M tiene una distribucion Wishart con matriz de escala y
n grados de libertad M W
p
(, n). Esto es consecuente con la ec. (4.1), donde las variables X
i
son
las las (vectores aleatorios de observaciones) de la matriz de dise no. Para M se cumple que E[M] = n.
La funcion de densidad de la matriz aleatoria M es:
f (M) =
[M[
(np1)/2
exp
_
1
2
tr
1
M
_
2
np/2
p(p1)/4
[[
n/2
p
i=1
_
1
2
(n + 1 i)
_
(4.2)
4.1.1 Algunas propiedades
1. Si M W
p
(, n) y A '
pq
, entonces A
t
MA W
p
_
A
t
A, n
_
.
2. Si M W
p
(, n) y a '
p
tal que a
t
a ,= 0 entonces a
t
Ma/a
t
a
2
n
. Note que a
t
Ma
W
1
_
a
t
a, n
_
.
21
22 CAP
X
_
t
S
1
n
_
X
_
= n
_
X
_
t
S
1
u
_
X
_
T
2
(p, n 1) (4.4)
2. El estadstico T
2
es invariante bajo transformaciones lineales no singulares: x Ax +b.
3. T
2
(p, n) = np/ (n p + 1) F
p,np+1
.
4. Sean
X y S
n
son respectivamente el vector de medias y la matriz de varianzas covarianzas de una
muestra aleatoria de tama no n de una N
p
(, ), entonces
_
X
_
t
S
1
n
_
X
_
p
(n p)
F
p,np
(4.5)
y
_
X
_
t
S
1
u
_
X
_
p (n 1)
n(n p)
F
p,np
(4.6)
4.3 Comportamiento en muestras grandes
Suponga que x
1
, . . . , x
n
son observaciones independientes de una poblacion con vector de medias y
matriz de varianzas covarianzas no singular, entonces:
Ley de los grandes n umeros:
Cada x converge en probabilidad a
i
, i = 1, 2, . . . , p, por tanto
X converge . Tambien, cada covarianza
4.4. EVALUACI
n
_
X
_
aprox.
N
p
(0, ) (4.7)
Para n p grande,
n
_
X
_
t
S
1
u
_
X
_
aprox.
2
p
(4.8)
4.4 Evaluaci on del supuesto de normalidad multivariada
En el contexto multivariado puede demostrarse que si la distribucion conjunta es normal multivariada,
entonces, las distribuciones marginales son normales. Sin embargo, si las distribuciones marginales son
normales, esto no implica que la distribucion conjunta resulte normal multivariada. Con base en lo an-
terior, se puede decir que una condicion necesaria mas no sucente para la normalidad multivariada, es
la normalidad univariada de cada una de las variables del problema considerado, pero si alguna de estas
distribuciones marginales no es normal, entonces la distribucion conjunta tampoco lo es. Por esto, un
paso inicial en el chequeo de la multinormalidad, es determinar si las distribuciones marginales son nor-
males, si esto es as, podemos aplicar cualquiera de los metodos disponibles para probar multinormalidad.
Debido a la SPARSENESS inherente de los datos multivariados, las pruebas para normalidad mul-
tivariada son poco potentes, sin embargo, algunos chequeos sobre la distribucion son deseables (Rencher,
1995). Se han desarrollado muchos procedimientos para establecer la normalidad multivariada, a contin-
uacion se presentan tres de ellos (Rencher, 1995).
4.4.1 Procedimiento 1:
Esta basado en la distancia estadstica
SD
2
i
=
_
x
i
X
_
t
S
1
u
_
x
i
X
_
Gnanadesikan y Kettering (1972): Si x
i
N
p
(, ), entonces:
u
i
=
n
_
SD
2
i
_
(n 1)
2
Beta
La idea es obtener un QQ plot de los valores u
(1)
, u
(2)
, . . . , u
(n)
(los valores de u
i
ordenados) versus
los cuantiles v
i
de la distribucion beta, que estan dado por
_
vi
0
() ()
( +)
y
1
(1 y)
1
dy =
i
n + 1
donde =
p2
2p
y =
np2
2(np1)
. Un patron no lineal en dicha graca indicara que no hay normali-
dad multivariada. En Rencher (1995), tabla A.6 se proporcionan valores crticos superiores, del 1 y 5%.
24 CAP
1
0
0
1
0
2
0
3
0
var 2
0 20 40 60 2.0 2.5 3.0 3.5 4.0 4.5
2
.
0
2
.
5
3
.
0
3
.
5
4
.
0
4
.
5
var 3
Matriz de Dispersin con Histogramas
Figura 4.1: Matriz de dispersion con histogramas. Puede evaluarse las caractersticas univariadas y las
relaciones por pares entre variables.
26 CAP
1
0
0
1
0
2
0
3
0
var 2
0 20 40 60 2.0 2.5 3.0 3.5 4.0 4.5
2
.
0
2
.
5
3
.
0
3
.
5
4
.
0
4
.
5
var 3
Matriz de Dispersin con Boxplots
Figura 4.2: Matriz de dispersion con boxplots. Puede evaluarse las caractersticas univariadas de simetra
y dispersion, y las relaciones por pares entre variables.
4.4. EVALUACI
1,p
= E
_
(y )
t
1
(x )
_
3
2,p
= E
_
(y )
t
1
(y )
_
2
(4.9)
Ahora bien, dado que los momentos centrales de orden 3 para una distribucion normal multivariada son
cero,
1,p
= 0. Tambien puede demostrarse que
2,p
= p (p + 2).
Sea
g
ij
=
_
x
i
X
_
t
S
1
n
_
x
j
X
_
(4.10)
entonces los estimadores de los coecientes de asimetra y kurtosis con base en una muestra aleatoria de
una normal multivariada dada de tama no n, son respectivamente
b
1,p
=
1,p
=
1
n
2
n
i=1
n
j=1
g
3
ij
b
2,p
=
2,p
=
1
n
n
i=1
g
2
ii
(4.11)
La tabla A.5 de Rencher, (1995) da algunos puntos porcentuales de b
1,p
y b
2,p
, para p =2, 3 y 4. Para
valores de n 50 se puede recurrir a las siguientes dos pruebas aproximadas:
Para b
1,p
,
Z
1
=
(p+1)(n+1)(n+3)
6[(n+1)(p+1)6]
b
1,p
aprox.
2
=
1
6
p (p + 1) (p + 2)
(4.12)
rechazar normalidad multivariada si Z
i
2
0.05,
.
Respecto al coeciente de kurtosis b
2,p
, se desea rechazar para valores grandes y para valores peque nos.
Para los puntos porcentuales superiores de 2.5% se tiene:
Z
2
=
b
2,p
p (p + 2)
_
8p (p + 2) /n
aprox.
N (0, 1) (4.13)
Para los puntos porcentuales inferiores de 2.5%, se tienen dos casos:
28 CAP
.
A continuacion se presenta una funcion creada en R, con el nombre de gracochi2, para realizar tanto el
graco Q Q chi cuadrado y la prueba de Pearson. Por defecto la funcion realiza el test de Pearson al
5%:
graficochi2<-function(X, alpha=0.05){
n<-nrow(X)
p<-ncol(X)
Xmedia<-apply(X,2,mean)
Sn<-((n-1)/n)*cov(X)
Mahal<-mahalanobis(X,center=Xmedia,cov=Sn)
Ui<-qchisq(ppoints(n,a=0.5), df=p)
qqplot(Ui, Mahal,main = expression("Q-Q plot de las distancias de Mahalanobis"* ~D^2 *" vs. Cuantiles de" * ~ chi[p]^2),
cex.main=0.8,cex.lab=0.7)
abline(0, 1, col = gray,lty=2)
#Prueba de pearson sobre correlacion ebtre percentiles
#teoricos y percentiles observados en el grafico de
#probabilidad chi cuadrado:
library(ctest)
Mahal.ord<-sort(Mahal)
confianza<-1-alpha
pruebacorr<-cor.test(Ui, Mahal.ord,alternative ="two.sided",method = "pearson",conf.level = confianza)
pruebacorr
}
Aplicando la anterior funcion a los datos del ejemplo 1 del procedimiento de Mardia, se obtiene:
graficochi2(X)
Pearsons product-moment correlation
data: Ui and Mahal.ord
t = 103.1108, df = 98, p-value = < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9931928 0.9969234
sample estimates:
cor
0.9954228
32 CAP