You are on page 1of 35

CONTROL MULTIVARIADO

Aspectos Preliminares
Topicos Especiales en Control de Calidad
Profesora: Nel Gonzalez A.
Posgrado de Estadstica
UNIVERSIDAD NACIONAL DE COLOMBIA SEDE MEDELL

IN
24 de marzo de 2004
2

Indice General
1 DATOS MULTIVARIADOS 5
1.1 Variables y observaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Matriz de dise no y estadsticos muestrales multivariados . . . . . . . . . . . . . . . . . . . 5
1.3 Medidas de dispersion multivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Combinaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.1 Transformacion de escalamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.2 Transformacion de componentes principales . . . . . . . . . . . . . . . . . . . . . . 10
1.5.3 Transformacion de Mahalanobis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Vision geometrica de la matriz de dise no . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.1 Espacio objeto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6.2 Espacio variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 LA DISTRIBUCI

ON NORMAL MULTIVARIADA 13
2.1 Densidad normal multivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 La distribucion normal bivariada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Contornos de densidad constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Algunas propiedades de la distribucion normal multivariada . . . . . . . . . . . . . . . . . 15
3 DISTANCIA ESTAD

ISTICA vs. DISTANCIA EUCLIDIANA 17


3.1 Distancia euclidiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2 Distancia estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
4 DISTRIBUCIONES MUESTRALES 21
4.1 Distribucion Wishart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.1.1 Algunas propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2 Distribucion T
2
de Hotelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2.1 Algunas propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3 Comportamiento en muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.4 Evaluacion del supuesto de normalidad multivariada . . . . . . . . . . . . . . . . . . . . . 23
4.4.1 Procedimiento 1: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.4.2 Procedimiento 2: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.4.3 Procedimiento 3: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.4.4 Otro procedimiento: Graco Chi cuadrado . . . . . . . . . . . . . . . . . . . . . . 30
3
4

INDICE GENERAL
Captulo 1
DATOS MULTIVARIADOS
1.1 Variables y observaciones
El analisis multivariado trata con datos que contienen observaciones sobre dos o mas variables medidas
sobre un conjunto de objetos, individuos, etc. En este sentido las observaciones estan constituidas por
vectores de dimension p, donde p corresponde al n umero de variables simultaneamente observadas sobre
cada individuo u objeto. Por ejemplo, considere la tabla 1.1 de datos articiales, en la cual se presenta
informacion sobre las curvas de absorcion para 10 diferentes muestras medidas en siete longitudes de
onda (fuente: Jackson, J. E., (1991). A Users Guide To Principal Components. Wiley, pp. 73.)
No. Longitud de onda
Obs 1 2 3 4 5 6 7
1 0.5 1.0 1.5 1.0 0.5 1.5 2.5
2 1.0 2.0 3.0 2.0 1.0 3.0 5.0
3 1.5 3.0 4.5 3.0 1.5 4.5 7.5
4 2.0 4.0 6.0 4.0 2.0 6.0 10.0
5 2.5 5.0 7.5 5.0 2.5 7.5 12.5
6 3.0 6.0 9.0 6.0 3.0 9.0 15.0
7 3.5 7.0 10.5 7.0 3.5 10.5 17.5
8 4.0 8.0 12.0 8.0 4.0 12.0 20.0
9 4.5 9.0 13.5 9.0 4.5 13.5 22.5
10 5.0 10.0 15.0 10.0 5.0 15.0 25.0
Tabla 1.1: Datos de Absorcion
En esta tabla tenemos 10 observaciones, cada una de las cuales proporciona informacion sobre los valores
de 7 variables, es decir, las siete longitudes de onda.
1.2 Matriz de dise no y estadsticos muestrales multivariados
Un conjunto de datos que comprende n observaciones tomadas sobre p variables puede ser representado
matricialmente, en una matriz X de orden n p, que denominaremos matriz de dise no.
5
6 CAP

ITULO 1. DATOS MULTIVARIADOS


Considere una muestra aleatoria de n observaciones pvariadas, x
1
, x
2
, . . . , x
n
; sea x
t
i
la iesima -
la (observacion i) de la matriz X, provenientes de una distribucion multivariada que tiene como media
al vector
=
_
_
_
_
_

2
.
.
.

p
_
_
_
_
_
(1.1)
y matriz de varianzas covarianzas
=
_
_
_
_
_

2
1

12
. . .
1p

12

2
2
. . .
2p
.
.
.
.
.
.
.
.
.
.
.
.

1p

2p
. . .
2
p
_
_
_
_
_
(1.2)
donde
ij
corresponde a la covarianza entre las variables i y j y
2
i
es la varianza de la variable i. El
iesimo vector de observacion corresponde a:
x
i
=
_
_
_
_
_
x
i1
x
i2
.
.
.
x
ip
_
_
_
_
_
(1.3)
entonces la matriz de dise no puede escribirse en terminos de sus n las, como se indica a continuacion:
X
np
=
_
_
_
_
_
x
t
1
x
t
2
.
.
.
x
t
n
_
_
_
_
_
(1.4)
Denotemos ahora x
(j)
la jesima columna de X, entonces X puede escribirse en terminos de sus p
columnas, as:
X
np
=
_
x
(1)
, x
(2)
, . . . x
(p)

(1.5)
Si las n las x
i
conforman una muestra aleatoria de vectores de '
p
, de una distribucion pvariada el
vector de medias muestrales correspondiente es:

X =
1
n
n

i=1
x
i
=
_
_
_
_
_
x
1
x
2
.
.
.
x
p
_
_
_
_
_
(1.6)
Tambien podemos escribir la media muestral en terminos de la matriz de dise no:

X =
1
n
X
t
1
n1
(1.7)
donde 1
n1
es un vector columna de dimension n con todos sus elementos iguales a 1.
1.2. MATRIZ DE DISE

NO Y ESTAD

ISTICOS MUESTRALES MULTIVARIADOS 7


La matriz de varianzas covarianzas muestral S
n
(estimador sesgado de esta dada por:
S
n
=
1
n
n

i=1
_
x
i


X
_ _
x
i


X
_
t
=
1
n
n

i=1
x
i
x
t
i


X

X
t
(1.8)
o en terminos de la matriz de dise no:
S
n
=
1
n
X
t
X

X

X
t
=
1
n
_
X
t
X
1
n
_
X
t
1
n1
_ _
1
t
1n
X
_
=
1
n
X
t
_
I
nn

1
n
1
n1
1
t
1n

X
=
1
n
X
t
HX
(1.9)
Donde H de orden n n es conocida como la matriz de centramiento, y es tal que:
1. H
t
= H, es decir, es simetrica,
2. H
2
= H, es decir, es idempotente, y
3. H es semidenida positiva
Sea a '
p
, entonces:
a
t
S
n
a =
1
n
a
t
X
t
H X a
=
1
n
a
t
X
t
H
t
H X a
(1.10)
Sea Y = H X a, Y '
n
, entonces
a
t
S
n
a =
1
n
Y
t
Y
=
1
n
|Y|
2
0
(1.11)
por tanto, S
n
es semidenida positiva. Pero para datos continuos esperamos que S
n
sea denida positiva
si n p + 1.
Ahora considere a:
S
u
=
1
n1
X
t
HX
=
n
n1
S
n
(1.12)
este es un estimador insesgado de la matriz de varianzas covarianzas.
Tambien podemos expresar a S
n
en terminos de su ijesimo elemento:
S
ij
=
1
n
n

r=1
(x
ri
x
i
) (x
rj
x
j
) (1.13)
que corresponde al estimador sesgado de
ij
. luego, para i = j se tiene que
S
ii
= S
2
i
=
1
n
n

r=1
(x
ri
x
i
)
2
(1.14)
8 CAP

ITULO 1. DATOS MULTIVARIADOS


este ultimo es un estimador sesgado de
2
i
. Para S
u
las componentes estan dadas por
S
u,ij
=
1
n 1
n

r=1
(x
ri
x
i
) (x
rj
x
j
) (1.15)
Considere ahora
r
ij
=
S
ij
S
i
S
j
(1.16)
que corresponde a un estimador del coeciente de correlacion entre las variables i y j. Sea R = r
ij
la
matriz de correlaciones muestrales, puede demostrarse que esta es semidenida positiva. Considere ahora
a la matriz de orden p p D = diag(S
i
) (una matriz diagonal con las estimaciones de las desviaciones
estandar en su diagonal principal), entonces
R = D
1
S
n
D
1
(1.17)
por ende
S
n
= D R D (1.18)
reemplazando (1.9) en (1.17), se tiene:
R =
1
n
D
1
X
t
HXD
1
=
1
n
_
D
1
X
t
H
t
_ _
HXD
1
_
(1.19)
Sea a '
p
, entonces:
a
t
Ra =
1
n
a
t
_
D
1
X
t
H
t
_ _
HXD
1
_
a
=
1
n
Y
t
Y
=
1
n
|Y|
2
0
(1.20)
donde Y =
_
HXD
1
_
; en (1.20) queda demostrado que R es una matriz semidenida positiva.
1.3 Medidas de dispersion multivariadas
Existen dos estadsticos que nos permiten obtener una medida multivariada de la varianza:
La varianza generalizada, que corresponde a [S
n
[, donde [ . [ es la funcion determinante.
La variacion total, dada por tr(S
n
), donde tr(.) denota la funcion traza.
En ambas medidas, valores grandes dan indicio de una alta dispersion alrededor de

X. Sin embargo, cada
medida reeja aspectos diferentes de la variabilidad de los datos. La varianza generalizada juega un papel
importante en la estimacion de maxima verosimilitud, en tanto que la variacion total es un concepto util
en el analisis de componentes principales.
1.4 Combinaciones lineales
Combinaciones lineales apropiadas de las p variables involucradas en un contexto multivariado, pueden
proporcionar mas informacion que una multiplicidad de dichas variables, a menudo, debido a la reduccion
de la dimension de los datos. Las combinaciones lineales tambien pueden simplicar la estructura de la
1.4. COMBINACIONES LINEALES 9
matriz de varianzas covarianzas haciendo mas directa la interpretacion de los datos.
Sea una combinacion lineal
y
i
= a
1
x
i1
+a
2
x
i2
+ +a
p
x
ip
i = 1, 2, . . . , n (1.21)
Note que y
i
es un escalar. Podemos hallar la media de las n combinaciones lineales, as:
y = a
t
1p

X
p1
(1.22)
o bien, deniendo el vector que contiene las n combinaciones lineales
Y = X
np
a
p1
(1.23)
entonces
y =
1
n
a
t
X
t
1
n1
(1.24)
y la varianza de las n combinaciones lineales, corresponde a
S
2
y
=
1
n
n

i=1
(y
i
y)
2
=
1
n
n

i=1
a
t
_
x
i


X
_ _
x
i


X
_
t
a
= a
t
S
n
a
(1.25)
Tambien puede hablarse de transformaciones lineales q dimensionales, en ese caso:
y
iq1
= A
qp
x
i
+b
q1
i = 1, 2, . . . , n (1.26)
por tanto las n transformaciones lineales q dimensionales pueden escribirse matricialmente como
Y
nq
= X
np
A
t
pq
+1
n1
b
t
1q
(1.27)
Usualmente q p. El vector de medias de Y
nq
esta dado por:

Y
q1
=
1
n
Y
t
qn
1
n1
=
1
n
_
X
np
A
t
pq
+1
n1
b
t
1q
_
t
1
n1
=
1
n
_
A
qp
X
t
pn
1
n1
+b
q1
1
t
1n
1
n1
_
t
= A

X+b
(1.28)
La matriz de varianzas covarianzas de Y
nq
es (tener en cuenta que H = I
n

1
n
1
n1
1
t
1n
, 1
t
1n
H
nn
=
0
1n
y H
nn
1
n1
= 0
n1
):
S
Y
=
1
n
Y
t
HY
=
1
n
_
XA
t
+1b
t
_
t
H
_
XA
t
+1b
t
_
=
1
n
AX
t
HXA
t
= A
_
1
n
X
t
HX
_
A
t
= AS
n
A
t
(1.29)
10 CAP

ITULO 1. DATOS MULTIVARIADOS


1.5 Transformaciones
Para las siguientes secciones, considere una muestra aleatoria de n observaciones pvariadas, x
1
, x
2
, . . . , x
n
.
1.5.1 Transformaci on de escalamiento
Sea Y
i
la variable dada por:
Y
i
= D
1
_
x
i


X
_
i = 1, 2, . . . , n
D = diag (S
i
)
S
i
=

1
n
n

r=1
(x
ri
x
i
)
2
(1.30)
Esta transformacion escala las variables centradas de modo que tengan varianza unitaria. Note que Y
i
tiene la forma Y
i
= Ax
i
+ b con A = D
1
y b = D
1

X, es decir, es una transformacion lineal dada


por la ecuacion (1.26) con q = n. Siguiendo la ecuacion (1.27), la matriz de las observaciones escaladas
esta dada por:
Y
np
= XA
t
+1
n1
b
t
= XD
1
1
n1

X
t
D
1
=
_
X1
n1

X
t
_
D
1
=
_
X1
n1
_
1
n
X
t
1
n1
_
t
_
D
1
=
_
I
n

1
n
1
n1
1
t
1n
_
XD
1
= HXD
1
(1.31)
Aplicando (1.28) se muestra facilmente que

Y
n1
= 0
n1
, mientras que por (1.29) y (1.17) se tiene que
S
Y
= D
1
S
n
D
1
= R (1.32)
1.5.2 Transformaci on de componentes principales
Por el teorema de descomposicion espectral del algebra lineal S
n
puede escribirse
S
n
= GG
t
(1.33)
y ademas
= G
t
S
n
G (1.34)
donde G
pp
es una matriz ortogonal formada a partir de los vectores propios de S
n
, es una matriz
diagonal de valores propios de S
n
, con
1

2

p
0.
Sea W
i
el vector de transformacion de la observacion i dado por:
W
i
= G
t
_
x
i


X
_
, i = 1, 2, . . . , n (1.35)
1.5. TRANSFORMACIONES 11
Observe que W
i
= Ax
i
+b con A = G
t
y b = G
t

X, es decir, es una transformacion lineal dada por


la ecuacion (1.26) con q = n. Por tanto seg un (1.27) la matriz de transformaciones W
np
esta dada por:
W
np
= XA
t
+1
n1
b
t
= XG1
n1

X
t
G
=
_
X1
n1

X
t
_
G
=
_
X1
n1
_
1
n
X
t
1
n1
_
t
_
G
=
_
I
n

1
n
1
n1
1
t
1n
_
XG
= HXG = HXG
t
(1.36)
Aplicando (1.28) se muestra que

Y
n1
= 0
n1
, mientras que por (1.29) y (1.34) se tiene que:
S
W
= G
t
S
n
G = (1.37)
Las p columnas de la matriz W
np
son llamadas componentes principales y representan combinaciones
lineales incorrelacionadas de las p variables originales es decir, la varianza de las componentes principales
y que seg un (1.37) tienen respectivamente varianza igual a
1

2

p
.
En este caso, la varianza generalizada [S
n
[ = [[ =
p

i=1

i
y la variacion total tr (S
n
) = tr () =
p

i=1

i
1.5.3 Transformaci on de Mahalanobis
Si S
n
> 0 (denida positiva) tiene una unica raz cuadrada denida positiva S
1/2
n
. Sea
Z
i
= S
1/2
n
_
x
i


X
_
, i = 1, 2, . . . , n (1.38)
Observe que Z
i
= Ax
i
+b con A = S
1/2
n
y b = S
1/2
n

X, es decir, es una transformacion lineal dada
por (1.26) con q = n. De nuevo, por la ecuacion (1.27) la matriz de transformacion es:
Z
np
= XA
t
+1
n1
b
t
= XS
1/2
n
1
n1

X
t
S
1/2
n
=
_
X1
n1

X
t
_
S
1/2
n
=
_
X1
n1
_
1
n
X
t
1
n1
_
t
_
S
1/2
n
=
_
I
n

1
n
1
n1
1
t
1n
_
XS
1/2
n
= HXS
1/2
n
(1.39)
Por (1.28) se muestra que

Z
n1
= 0
n1
, mientras que por (1.29) se tiene que:
S
Z
= S
1/2
n
S
n
S
1/2
n
= I
p
(1.40)
12 CAP

ITULO 1. DATOS MULTIVARIADOS


de modo que esta transformacion centra y esfera a los datos (es decir, elimina la correlacion entre las
variables).
Cabe anotar que las anteriores tres transformaciones pueden tambien ser denidas usando S
u
en lu-
gar de S
n
.
1.6 Vision geometrica de la matriz de dise no
Considere la muestra aleatoria de tama no n de observaciones pvariadas, x
1
, x
2
, . . . , x
n
; sea x
np
, la
correspondiente matriz de dise no dada por
X
np
=
_
_
_
_
_
x
11
x
12
x
1p
x
21
x
22
x
2p
.
.
.
.
.
.
.
.
.
.
.
.
x
n1
x
n2
x
np
_
_
_
_
_
(1.41)
1.6.1 Espacio objeto
Las columnas de X pueden ser vistas como p puntos en un espacio ndimensional llamado espacio R o
espacio objeto.
Sea la matriz centrada Y = HX donde las nuevas p variables tienen media cero; entonces r
ij
la cor-
relacion entre las columnas i y j de X puede verse como
cos
ij
=
Y
t
(i)
Y
(j)
_
_
Y
(i)
_
_
_
_
Y
(j)
_
_
=
S
ij
S
i
S
j
= r
ij
(1.42)
es decir, la correlacion muestral entre dos variables corresponde al coseno del angulo de los vectores
variables centradas.
1.6.2 Espacio variable
Las n las de X pueden considerarse como n puntos en un espacio p dimensional llamado espacio Q o
espacio variable.
Una forma de comparar dos las (observaciones) x
i
y x
j
es a traves de la distancia euclidiana de es-
tos vectores:
|x
i
x
j
|
2
= (x
i
x
j
)
t
(x
i
x
j
) (1.43)
Otra forma de comparacion es transformar los datos y mirar la distancia euclidiana entre las las trans-
formadas, por ejemplo, usando la transformacion de Mahalanobis, que origina la llamada distancia de
Mahalanobis:
D
2
ij
= |Z
i
Z
j
|
2
= (x
i
x
j
)
t
S
1
n
(x
i
x
j
) (1.44)
Captulo 2
LA DISTRIBUCI

ON NORMAL
MULTIVARIADA
En la practica existen muchos problemas multivariados en los cuales la teora normal funciona apropi-
adamente. Este es el supuesto con el cual se han dise nado los esquemas de control por lo cual se presenta
a continuacion una breve descripcion de esta distribucon y algunas de sus propiedades.
2.1 Densidad normal multivariada
Recordemos la forma de la densidad normal univariada:
f (x) =
1

2
exp
_

1
2
(x )
2

2
_
< x <
El termino
(x )
2

2
= (x )
_

2
_
1
(x )
mide el cuadrado de la distancia de x a en unidades estandar. Para el caso pvariado donde x es un
vector de observaciones p 1, esta expresion correspondera a
(x )
t

1
(x ) (2.1)
con el vector de medias de dimension p 1 (ver (1.1)) y la matriz de varianzas covarianzas de
dimension p p (ver (1.2)).
La constante de normalizacion (2)
1/2
_

2
_
1/2
debe ser cambiada por aquella con la cual el volu-
men abajo de la supercie de la funcion de densidad multivariada es igual a 1. Esta constante es
(2)
p/2
[[
1/2
, por tanto para el vector aleatorio x = [x
1
, x
2
, . . . , x
p
]
t
N
p
(, ), la funcion de den-
sidad normal pvariada es:
f (x) =
1
(2)
p/2
[[
1/2
exp
_

1
2
(x )
t

1
(x )
_
(2.2)
13
14 CAP

ITULO 2. LA DISTRIBUCI

ON NORMAL MULTIVARIADA
2.2 La distribucion normal bivariada
Un caso particular de (2.2) es para p = 2, con
12
= corr (x
1
, x2)
f (x
1
, x
2
) =
1
2
1

1
2
12
exp
_

1
2(1
2
12
)
_
_
x11
1
_
2
2
12
_
x
1

1
__
x
2

2
_
+
_
x
2

2
_
2
__
< x
1
, x
2
<
(2.3)
La gura (2.1) ilustra varias funciones normales bivariadas.
X
Y
Z
rho=0.85
X
Y
Z
rho=0.5
X
Y
Z
rho=0.0
X
Y
Z
rho=0.85
Distribucin Normal Bivariada
Figura 2.1: Distribuciones normales bivariadas
2.3 Contornos de densidad constante
Considere la gura (2.1), si cortamos la supercie con un plano perpendicular al eje z = f (x
1
, x
2
), la
traza resultante sobre dicho plano sera un contorno elptico, y es tal que comprende todos los pares
(x
1
, x
2
) tales que (x )
t

1
(x ) es constante. En general, denimos los contornos de densidad
constante como la supercie de un elipsoide centrado en donde
_
x[x (x )
t

1
(x ) = c
2
_
(2.4)
Los ejes de cada elipsoide de densidad constante estan en la direccion de los vectores propios de y sus
longitudes son proporcionales a las races cuadradas de los valores propios de . Es decir, los ejes de estos
2.4. ALGUNAS PROPIEDADES DE LA DISTRIBUCI

ON NORMAL MULTIVARIADA 15
elipsoides son c

i
e
i
, donde e
i
=
i
e
i
. Si elegimos c
2
=
2
p
(), donde
2
p
() es el percentil superior
100% de la distribucion chi cuadrado con p grados de libertad, entonces los contornos obtenidos conducen
a contornos que contienen 100(1 )% de la probabilidad abajo de la densidad normal pvariada.
x
1
x
2

2
0.3
0.5
0.7
0.9
Figura 2.2: Contornos de probabilidad del 30%, 50%, 70% y 90%, de una normal bivariada con = (1, 2)
t
,

2
1
= 4,
2
2
= 1, y
12
= 0.95
2.4 Algunas propiedades de la distribucion normal multivariada
Sea el vector aleatorio x = [x
1
, x
2
, . . . , x
p
]
t
N
p
(, ), las siguientes propiedades son ciertas para x:
1. Combinaciones lineales de las componentes de x se distribuyen en forma normal. Tenemos dos
casos:
Considere el vector a = [a
1
, a
2
, . . . , a
p
]
t
. La combinacion lineal dada por
a
t
x = a
1
x
1
+a
2
x
2
+ +a
p
x
p
a
t
x N
_
a
t
, a
t
a
_
, a '
p
(2.5)
da origen a una variable aleatoria normal univariada.
Considere la matriz
A =
_
_
_
_
_
a
11
a
12
a
1p
a
21
a
22
a
2p
.
.
.
.
.
.
.
.
.
a
q1
a
q2
a
qp
_
_
_
_
_
16 CAP

ITULO 2. LA DISTRIBUCI

ON NORMAL MULTIVARIADA
El vector de combinaciones lineales dado por
Ax =
_
_
_
_
_
a
11
x
1
+a
12
x
2
+ +a
1p
x
p
a
21
x
1
+a
22
x
2
+ +a
2p
x
p
.
.
.
a
q1
x
1
+a
q2
x
2
+ +a
qp
x
p
_
_
_
_
_
Ax N
q
_
A, AA
t
_
, A '
qp
(2.6)
origina un vector aleatorio que se distribuye en forma normal qvariada. En general, trans-
formaciones lineales del tipo Ax +b son normales multivariadas, si x N
p
(, ).
2. Todos los subconjuntos de componentes de x tienen distribucion normal multivariada.
3. Covarianzas cero implica que las correspondientes componentes son independientes.
4. Las distribuciones marginales de las componentes de x son normales.
5. Las distribuciones condicionales de las componentes de x son normales (multivariadas, para p > 2).
6. Dada una muestra aleatoria de n observaciones pvariadas, x
1
, x
2
, . . . , x
n
con x
i
N (, ) los
estimadores de maxima verosimilitud de y son respectivamente

X (ver ec. (1.7)) y S


n
(ver ec.
(1.8)).
7. (x )
t

1
(x )
2
p
, dado que si hacemos z =
1/2
(x ), entonces (x )
t

1
(x ) =
z
t
z =
p

j=1
z
2
j
, donde los z
j
N (0, 1), e independientes, y z
2
i

2
1
, por tanto la suma de p variables
chicuadrados independientes con 1 grado de libertad, es chi cuadrado con p grados de libertad.
Captulo 3
DISTANCIA ESTAD

ISTICA vs.
DISTANCIA EUCLIDIANA
3.1 Distancia euclidiana
Generalmente es referida como distancia de linea recta. Considere un caso bidimensional con variables
X
1
y X
2
y el vector de medias
t
= (
1
,
2
); sea el par de observaciones (x
1
, x
2
), entonces seg un (1.43)
la distancia de este punto al vector de medias es:
D
2
euc
=
_
(x
1

1
)
2
+ (x
2

2
)
2
_
(3.1)
esta cantidad no da cuenta ni de la variabilidad de las variables X
1
y X
2
ni de la covaroacion entre ellas.
Si representamos gracamente la distancia para todos los pares de puntos que estan ubicados a la misma
distancia del vector de medias, la gura resultante sera una circunferencia, como muestra la gura 3.1.
3.2 Distancia estadstica
Una medida de distancia que s tiene en cuenta la presencia de relaciones lineales entre las variables y
la diferencia en la variabilidad de estas es la distancia estadstica o distancia de mahalanobis respecto al
vector de medias (ver la ecuacion (1.44)). Consideremos de nuevo el caso bivariado, para una muestra de
n observaciones, considere los siguientes estimadores insesgados:
La covarianza muestral entre X
1
y X
2
S
12
=
_
1
n 1
_
n

i=1
(x
i1
x
1
) (x
i2
x
2
) (3.2)
La varianza muestral de las n observaciones de la variable X
1
S
2
1
=
_
1
n 1
_
n

i=1
(x
i1
x
1
)
2
(3.3)
La varianza muestral de la variable X
2
S
2
2
=
_
1
n 1
_
n

i=1
(x
i2
x
2
)
2
(3.4)
17
18 CAP

ITULO 3. DISTANCIA ESTAD

ISTICA VS. DISTANCIA EUCLIDIANA

2
p(x
1
, x
2
)
Figura 3.1: Representacion geometrica de la distancia euclidiana
Por tanto la distancia estadstica de la iesima observacion al vector de medias muestral, esta dada por:
SD
2
i
=
_
x
i


X
_
t
S
1
u
_
x
i


X
_
(3.5)
Con

X
t
= (x
i1
, x
i2
) y
S
u
=
_
S
2
1
S
12
S
12
S
2
2
_
entonces
SD
2
i
=
1
1 r
2
12
_
(x
1
x
1
)
2
S
2
1

2r
12
(x
1
x
1
) (x
2
x
2
)
S
1
S
2
+
(x
2
x
2
)
2
S
2
2
_
(3.6)
donde r
12
=
S12
S
1
S
2
es el coeciente de correlacion muestral entre X
1
y X
2
. Suponiendo que el par de
variables se distribuyen conjuntamente en forma normal bivariada, geometricamente, la region denida
por todos los puntos que poseen la misma distancia estadstica lucira como una elipse, por ejemplo,
como en la gura 3.2, donde la conguracion asume correlacion positiva. Solo cuando las dos variables
son independientes y de varianza igual, la gura geometrica que representa a todos los puntos que tienen
la misma distancia estadstica respecto al centro de los datos, sera una circunferencia como en la gura 1.2.
El control estadstico multivariado esta basado en metodos que usan el concepto de la distancia es-
tadstica.
3.2. DISTANCIA ESTAD

ISTICA 19
x
1
x
2
p(x
1
, x
2
)
Figura 3.2: Representacion geometrica de la distancia estadstica, de dos variables con distribucion normal
bivariada, coeciente de correlacion positivo.
20 CAP

ITULO 3. DISTANCIA ESTAD

ISTICA VS. DISTANCIA EUCLIDIANA


Captulo 4
DISTRIBUCIONES MUESTRALES
Sea x
1
, x
2
, . . . , x
n
una muestra aleatoria de n observaciones de una distribucion N
p
(, ). Entonces:
1.

X N
p
(, (1/n)). Esto se deriva considerando a la media muestral como una combinacion lineal
dada por la ec. (2.5), con a
i
= 1/n.
2. (n 1)S
u
se distribuye como una matriz aleatoria Wishart con n 1 grados de libertad.
3.

X y S
u
son independientes.
4.1 Distribucion Wishart
La distribucion Wishart es denida como la suma de productos de vectores aleatorios normales multi-
variados, as:
W
p
(, n) = f
_
n

i=1
x
i
x
t
i
_
x
i
N
p
(0, ) (4.1)
Las formas cuadraticas a menudo conducen a la distribucion Wishart, la cual constituye una general-
izacion de la distribucion chi cuadrado univariada, y tiene muchas propiedades similares.
Denicion 4.1.1: Si M
pp
puede descomponerse en M = X
t
X, donde X
np
es una matriz de datos
de una distribucion N
p
(0, ), se dice que M tiene una distribucion Wishart con matriz de escala y
n grados de libertad M W
p
(, n). Esto es consecuente con la ec. (4.1), donde las variables X
i
son
las las (vectores aleatorios de observaciones) de la matriz de dise no. Para M se cumple que E[M] = n.
La funcion de densidad de la matriz aleatoria M es:
f (M) =
[M[
(np1)/2
exp
_

1
2
tr
1
M
_
2
np/2

p(p1)/4
[[
n/2
p

i=1

_
1
2
(n + 1 i)
_
(4.2)
4.1.1 Algunas propiedades
1. Si M W
p
(, n) y A '
pq
, entonces A
t
MA W
p
_
A
t
A, n
_
.
2. Si M W
p
(, n) y a '
p
tal que a
t
a ,= 0 entonces a
t
Ma/a
t
a
2
n
. Note que a
t
Ma
W
1
_
a
t
a, n
_
.
21
22 CAP

ITULO 4. DISTRIBUCIONES MUESTRALES


3. Si M
1
W
p
(, n
1
) y M
2
W
p
(, n
2
) , y si M
1
y M
2
son independientes, entonces M
1
+M
2

W
p
(, n
1
+n
2
)
4. Si C
nn
es una matriz simetrica idempotente, y X
np
es una matriz de dise no de una N
p
(0, ),
entonces X
t
CX W
p
(, r) con r = tr(C) = rango de C.
5. Si X
np
es una matriz de dise no de una N
p
(, ), y S
n
= n
1
X
t
HX la matriz de covarianza
muestral (estimador de maxima verosimilitud), entonces nS
n
W
p
(, n 1).
6. Si X
np
es una matriz de dise no de una N
p
(, ), y S
u
= (n1)
1
X
t
HX la matriz de covarianza
muestral, entonces (n 1)S
u
W
p
(, n 1).
Denicion 4.1.2: Sea X
np
la matriz de dise no de una distribucion N
p
(, ) con ,= 0. Entonces
M = X
t
X tiene una distribucion wishart no central.
4.2 Distribucion T
2
de Hotelling
Denicion 4.2.1: Sea = na
t
M
1
a, con a N
p
(0, I), M W
p
(I, n), e independientes, entonces
se distribuye como una T
2
de Hotelling con parametros p y n, es decir T
2
(p, n).
4.2.1 Algunas propiedades
1. Si x N
p
(, ), M W
p
(, n), e independientes, entonces:
n(x )
t
M
1
(x ) T
2
(p, n) (4.3)
En particular, si

Xy S
n
son respectivamente el vector de medias y la matriz de varianzas covarianzas
de una muestra aleatoria de tama no n de una N
p
(, ), y S
u
= (n/(n 1)) S
n
, entonces:
(n 1)
_

X
_
t
S
1
n
_

X
_
= n
_

X
_
t
S
1
u
_

X
_
T
2
(p, n 1) (4.4)
2. El estadstico T
2
es invariante bajo transformaciones lineales no singulares: x Ax +b.
3. T
2
(p, n) = np/ (n p + 1) F
p,np+1
.
4. Sean

X y S
n
son respectivamente el vector de medias y la matriz de varianzas covarianzas de una
muestra aleatoria de tama no n de una N
p
(, ), entonces
_

X
_
t
S
1
n
_

X
_

p
(n p)
F
p,np
(4.5)
y
_

X
_
t
S
1
u
_

X
_

p (n 1)
n(n p)
F
p,np
(4.6)
4.3 Comportamiento en muestras grandes
Suponga que x
1
, . . . , x
n
son observaciones independientes de una poblacion con vector de medias y
matriz de varianzas covarianzas no singular, entonces:
Ley de los grandes n umeros:
Cada x converge en probabilidad a
i
, i = 1, 2, . . . , p, por tanto

X converge . Tambien, cada covarianza
4.4. EVALUACI

ON DEL SUPUESTO DE NORMALIDAD MULTIVARIADA 23


muestral S
ij
converge en probabilidad a
ij
, i, j = 1, 2, . . . , p, y por tanto S
n
(o S
u
) converge en proba-
bilidad a .
Teorema de lmite central:
Para muestras grandes,

n
_

X
_
aprox.
N
p
(0, ) (4.7)
Para n p grande,
n
_

X
_
t
S
1
u
_

X
_
aprox.

2
p
(4.8)
4.4 Evaluaci on del supuesto de normalidad multivariada
En el contexto multivariado puede demostrarse que si la distribucion conjunta es normal multivariada,
entonces, las distribuciones marginales son normales. Sin embargo, si las distribuciones marginales son
normales, esto no implica que la distribucion conjunta resulte normal multivariada. Con base en lo an-
terior, se puede decir que una condicion necesaria mas no sucente para la normalidad multivariada, es
la normalidad univariada de cada una de las variables del problema considerado, pero si alguna de estas
distribuciones marginales no es normal, entonces la distribucion conjunta tampoco lo es. Por esto, un
paso inicial en el chequeo de la multinormalidad, es determinar si las distribuciones marginales son nor-
males, si esto es as, podemos aplicar cualquiera de los metodos disponibles para probar multinormalidad.
Debido a la SPARSENESS inherente de los datos multivariados, las pruebas para normalidad mul-
tivariada son poco potentes, sin embargo, algunos chequeos sobre la distribucion son deseables (Rencher,
1995). Se han desarrollado muchos procedimientos para establecer la normalidad multivariada, a contin-
uacion se presentan tres de ellos (Rencher, 1995).
4.4.1 Procedimiento 1:
Esta basado en la distancia estadstica
SD
2
i
=
_
x
i


X
_
t
S
1
u
_
x
i


X
_
Gnanadesikan y Kettering (1972): Si x
i
N
p
(, ), entonces:
u
i
=
n
_
SD
2
i
_
(n 1)
2
Beta
La idea es obtener un QQ plot de los valores u
(1)
, u
(2)
, . . . , u
(n)
(los valores de u
i
ordenados) versus
los cuantiles v
i
de la distribucion beta, que estan dado por
_
vi
0
() ()
( +)
y
1
(1 y)
1
dy =
i
n + 1
donde =
p2
2p
y =
np2
2(np1)
. Un patron no lineal en dicha graca indicara que no hay normali-
dad multivariada. En Rencher (1995), tabla A.6 se proporcionan valores crticos superiores, del 1 y 5%.
24 CAP

ITULO 4. DISTRIBUCIONES MUESTRALES


4.4.2 Procedimiento 2:
Implica la realizacion de gracos en 2 o 3 dimensiones. Si p no es muy grande, los gracos de dispersion
de cada par de variables pueden presentarse en una matriz de dispersion. A continuacion un ejemplo en
R, en el cual se simulan 500 observaciones de una normal multivariada con
=
_
_
28.100
7.180
3.089
_
_
=
_
_
140.54 49.68 1.94
49.68 72.25 3.68
1.94 3.68 0.25
_
_
library(MASS)
mu<-c(28.1,7.18,3.089)
Sigma<-matrix(c(140.54,49.68,1.94,49.68,72.25,3.68,1.94,3.68,0.25),ncol=3,byrow=T)
datos.simulados<-mvrnorm(500,mu=mu,Sigma=Sigma)
#matriz de dispersion con histogramas:
panel.hist <- function(x, ...){
usr <- par("usr"); on.exit(par(usr))
#para definir region de graficiacion
par(usr = c(usr[1:2], 0, 1.5) )
#para obtener una lista que guarde las
#marcas de clase y conteos en cada una:
h <- hist(x, plot = FALSE)
breaks <- h$breaks;
nB <- length(breaks)
y <- h$counts; y <- y/max(y)
rect(breaks[-nB], 0, breaks[-1], y, col="cyan", ...)
#para dibujar los histogramas
}
pairs(datos.simulados, panel=panel.smooth, cex = 1.5,
pch = 19, bg="light blue",
diag.panel=panel.hist, cex.labels = 1, font.labels=1)
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersion con Histogramas",side=3)
#Matriz de dispersion con boxplots:
panel.box <- function(x, ...){
usr <- par("usr",bty=n); on.exit(par(usr))
par(usr = c(-1,1, min(x)-0.5, max(x)+0.5))
b<-boxplot(x,plot=FALSE)
whisker.i<-b$stats[1,]
whisker.s<-b$stats[5,]
hinge.i<-b$stats[2,]
mediana<-b$stats[3,]
hinge.s<-b$stats[4,]
rect(-0.5, hinge.i, 0.5,mediana,...,col=grey)
segments(0,hinge.i,0,whisker.i,lty=2)
segments(-0.1,whisker.i,0.1,whisker.i)
rect(-0.5, mediana, 0.5,hinge.s,...,col=grey)
segments(0,hinge.s,0,whisker.s,lty=2)
segments(-0.1,whisker.s,0.1,whisker.s)
}
pairs(datos.simulados,panel=panel.smooth,
cex = 1, pch = 19, bg="light blue",
diag.panel=panel.box, cex.labels = 0.8, font.labels=0.8)
par(oma=c(1,1,1,1),new=T,font=2,cex=0.5)
mtext(outer=T,"Matriz de Dispersion con Boxplots",side=3)
4.4. EVALUACI

ON DEL SUPUESTO DE NORMALIDAD MULTIVARIADA 25


var 1
10 0 10 20 30
0
2
0
4
0
6
0

1
0
0
1
0
2
0
3
0
var 2
0 20 40 60 2.0 2.5 3.0 3.5 4.0 4.5
2
.
0
2
.
5
3
.
0
3
.
5
4
.
0
4
.
5
var 3
Matriz de Dispersin con Histogramas
Figura 4.1: Matriz de dispersion con histogramas. Puede evaluarse las caractersticas univariadas y las
relaciones por pares entre variables.
26 CAP

ITULO 4. DISTRIBUCIONES MUESTRALES


var 1
10 0 10 20 30
0
2
0
4
0
6
0

1
0
0
1
0
2
0
3
0
var 2
0 20 40 60 2.0 2.5 3.0 3.5 4.0 4.5
2
.
0
2
.
5
3
.
0
3
.
5
4
.
0
4
.
5
var 3
Matriz de Dispersin con Boxplots
Figura 4.2: Matriz de dispersion con boxplots. Puede evaluarse las caractersticas univariadas de simetra
y dispersion, y las relaciones por pares entre variables.
4.4. EVALUACI

ON DEL SUPUESTO DE NORMALIDAD MULTIVARIADA 27


Las gracas resultantes aparecen en las guras 4.1 y 4.2. Los gracos bivariados de cada par de variables
permiten chequear la existencia de tendencias no lineales, presencia de outliers y otros indicios de no
normalidad. Recuerde que los subconjuntos de variables de una distribucion normal multivariada son
tambien normales multivariadas, en particular los subconjuntos de pares de variables se distribuyen nor-
males bivariados, luego, en los gracos de dispersion se espera observar un ajuste en linea recta a la nube
de puntos.
Analisis gracos de dispersion tomando de a tres variables tambien podran revelar varias caractersticas
de los datos, sin embargoesto puede resultar impractico con p grande.
4.4.3 Procedimiento 3:
Mardia (1970). Esta prueba esta basada en asimetra y kurtosis. Sea x e y dos vectores aleatorios
independientes e identicamente distribuidos con vector de medias y matriz de varianzas covarianzas .
La asimetra y la kurtosis multivariadas estan dadas respectivamente, por:

1,p
= E
_
(y )
t

1
(x )
_
3

2,p
= E
_
(y )
t

1
(y )
_
2
(4.9)
Ahora bien, dado que los momentos centrales de orden 3 para una distribucion normal multivariada son
cero,
1,p
= 0. Tambien puede demostrarse que
2,p
= p (p + 2).
Sea
g
ij
=
_
x
i


X
_
t
S
1
n
_
x
j


X
_
(4.10)
entonces los estimadores de los coecientes de asimetra y kurtosis con base en una muestra aleatoria de
una normal multivariada dada de tama no n, son respectivamente
b
1,p
=

1,p
=
1
n
2
n

i=1
n

j=1
g
3
ij
b
2,p
=

2,p
=
1
n
n

i=1
g
2
ii
(4.11)
La tabla A.5 de Rencher, (1995) da algunos puntos porcentuales de b
1,p
y b
2,p
, para p =2, 3 y 4. Para
valores de n 50 se puede recurrir a las siguientes dos pruebas aproximadas:
Para b
1,p
,
Z
1
=
(p+1)(n+1)(n+3)
6[(n+1)(p+1)6]
b
1,p
aprox.

2

=
1
6
p (p + 1) (p + 2)
(4.12)
rechazar normalidad multivariada si Z
i

2
0.05,
.
Respecto al coeciente de kurtosis b
2,p
, se desea rechazar para valores grandes y para valores peque nos.
Para los puntos porcentuales superiores de 2.5% se tiene:
Z
2
=
b
2,p
p (p + 2)
_
8p (p + 2) /n
aprox.
N (0, 1) (4.13)
Para los puntos porcentuales inferiores de 2.5%, se tienen dos casos:
28 CAP

ITULO 4. DISTRIBUCIONES MUESTRALES


1. Si 50 n 400 se cumple que
Z
3
=
b
2,p
p (p + 2) (n +p + 1) /n
_
8p (p + 2) / (n 1)
aprox.
N (0, 1) (4.14)
2. Si n 400 usar Z
2
.
Veamos la aplicacion de la prueba de Mardia usando el paquete R:
Ejemplo con datos simulados: Se va a generar n =100 observaciones de una normal multivaria-
da de p =3, que tiene vector de medias
t
= (28.1, 7.18, 3.089) y matriz de varianzas covarianzas dada
por
=
_
_
140.54 49.68 1.94
49.68 72.25 3.68
1.94 3.68 0.25
_
_
La instruccion R correspondiente para generar la matriz de dise no de 100 3, es:
library(MASS)
mu<-c(28.1,7.18,3.089)
Sigma<-matrix(c(140.54,49.68,1.94,49.68,72.25,3.68,1.94,3.68,0.25),ncol=3,byrow=T)
X<-mvrnorm(100,mu=mu,Sigma=Sigma)
Se va a crear a continuacion la funcion de nombre Mardia, con la cual se obtienen los coecientes
muestrales de asimetra y kurtosis, dados por las ecuaciones en (4.11). Tambien calcula los valores crticos
con las aproximaciones en las ecuaciones (4.12) a (4.14), usando por defecto un nivel de signicancia del
5%:
Mardia<-function(X,alpha=0.05){
n<-nrow(X)
p<-ncol(X)
Xmedia<-apply(X,2,mean)
Sn<-((n-1)/n)*var(X)
matriz.media<-matrix(rep(Xmedia,n),ncol=p,byrow=T)
G<-(X-matriz.media)%*%solve(Sn)%*%t(X-matriz.media)
gii<-diag(G)
gii2<-gii^2
b2.p<-mean(gii2)
G3<-G*G*G
b1.p<-(1/n^2)*sum(G3)
estad.asim<-(p+1)*(n+1)*(n+3)/(6*((n+1)*(p+1)-6))*b1.p
df<-(1/6)*p*(p+1)*(p+2)
Valor.crit.asimet<-qchisq(alpha, df, ncp=0, lower.tail =FALSE, log.p = FALSE)
Z2<-(b2.p-p*(p+2))/sqrt(8*p*(p+2)/n)
Z3<-(b2.p-p*(p+2)*(n+p+1)/n)/sqrt(8*p*(p+2)/(n-1))
estad.kurt.sup<-Z2
estad.kurt.inf<-c(NA)
estad.kurt.inf[n<50]<-NA
estad.kurt.inf[n>=50 & n<400]<-Z3
estad.kurt.inf[n>400]<-Z2
area<-alpha/2
valor.crit.kurtos1<-qnorm(area,lower.tail = TRUE)
valor.crit.kurtos2<-qnorm(area,lower.tail = FALSE)
resultados<-list(asimetria=b1.p,estad.asim=estad.asim,Vr.crit.asimet=Valor.crit.asimet,
kurtosis=b2.p,estad.kurt.inf=estad.kurt.inf,estad.kurt.sup=estad.kurt.sup,
vr.crit.kurtos1=valor.crit.kurtos1,vr.crit.kurtos2=valor.crit.kurtos2)
resultados<-unlist(resultados)
resultados}
Para aplicar esta funcion a la matriz de dise no simulada X:
Mardia(X)
4.4. EVALUACI

ON DEL SUPUESTO DE NORMALIDAD MULTIVARIADA 29


lo cual produce la siguiente salida:
asimetria estad.asim Vr.crit.asimet kurtosis estad.kurt.inf
0.4713191 8.2129527 18.3070381 14.0383215 -1.4185617
estad.kurt.sup vr.crit.kurtos1 vr.crit.kurtos2
-0.8778884 -1.9599640 1.9599640
los valores observados de los estadsticos de prueba para la simetra y la kurtosis, son respectivamente:
Z
1
= 8.2129527, Z
3
= 1.4185617 y Z
2
= 0.8778884 (recuerde que para n =100 la kurtosis tiene dos
estadsticos); las regiones crticas al nivel de signicancia dado, para los estadsticos de prueba para la
asimetra y la kurtosis, son: Z
1
> 18.3070381, Z
3
< 1.9599640 y Z2 > 1.9599640, por tanto, comparan-
do los valores observados con los crticos se concluye que la hipotesis de multinormalidad puede aceptarse.
Ejemplo Pesos de corcho: A continuacion se presentan los datos referentes a los pesos en centi-
gramos, del corcho hallado en muestras tomadas en las direcciones norte (N), este (E), oeste (O) y sur(S)
del tronco de 28 arboles cultivados en una parcela experimental. Las variables corresponden a los pesos
en cada direccion. Introducimos en R estos datos en forma matricial y aplicamos la funcion Mardia, como
Obs N E S O
1 72 66 76 77
2 60 53 66 63
3 56 57 64 58
4 41 29 36 38
5 32 32 35 36
6 30 35 34 26
7 39 39 31 27
8 42 43 31 25
9 37 40 31 25
10 33 29 27 36
11 32 30 34 28
12 63 45 74 63
13 54 46 60 52
14 47 51 52 43
15 91 79 100 75
16 56 68 47 50
17 79 65 70 61
18 81 80 68 58
19 78 55 67 60
20 46 38 37 38
21 39 35 34 37
22 32 30 30 32
23 60 50 67 54
24 35 37 48 39
25 39 36 39 31
26 50 34 37 40
27 43 37 39 50
28 48 54 57 43
Tabla 4.1: Pesos de corcho. Fuente: Daz M., L. G (2002) Estadstica Multivariada: Inferencia y
metodos. Universidad Nacional de Colombia, Facultad de Ciencias, Bogota.
se muestra a continuacion:
datos<-rbind(c(72,66,76,77),c(60,53,66,63),c(56,57,64,58),c(41,29,36,38),c(32,32,35,36),
c(30,35,34,26),c(39,39,31,27),c(42,43,31,25),c(37,40,31,25),c(33,29,27,36),c(32,30,34,28),
c(63,45,74,63),c(54,46,60,52),c(47,51,52,43),c(91,79,100,75),c(56,68,47,50),c(79,65,70,61),
c(81,80,68,58),c(78,55,67,60),c(46,38,37,38),c(39,35,34,37),c(32,30,30,32),c(60,50,67,54),
c(35,37,48,39),c(39,36,39,31),c(50,34,37,40),c(43,37,39,50),c(48,54,57,43))
Mardia (datos)
asimetria estad.asim Vr.crit.asimet kurtosis estad.kurt.inf
4.4763816 24.1263013 31.4104328 22.9568700 NA
estad.kurt.sup vr.crit.kurtos1 vr.crit.kurtos2
-0.3983518 -1.9599640 1.9599640
30 CAP

ITULO 4. DISTRIBUCIONES MUESTRALES


En los anteriores resultados se puede observar que no hay valor crtico para el estadstico inferior de
la kurtosis. Los otros valores crticos que aparecen no son conables puesto que las aproximaciones no
funcionan bien en muestras peque nas (n = 28 < 50). Que hacer? los valores en la tabla A.5 de Rencher
(1995) son limitados, pero por simulacion es posible, para un tama no de muestra y dimension dada,
hallar los valores crticos de la asimetra y kurtosis de la distribucion normal pvariada correspondiente.
A continuacion se presenta un programa en R que tiene tal utilidad, con dos aplicaciones:
Mardia3<-function(X,n,p){
Sn<-((n-1)/n)*var(X)
Xmedia<-apply(X, 2, mean)
matriz.media<-matrix(rep(Xmedia,n),ncol=p,byrow=T)
G<-(X-matriz.media)%*%solve(Sn)%*%t(X-matriz.media)
gii<-diag(G)
gii2<-gii^2
b2.p<-mean(gii2)
G3<-G*G*G
b1.p<-(1/n^2)*sum(G3)
resultados<-cbind(b1.p,b2.p)
resultados
}
simul<-function(n,p,Nsimul,alpha){
library(MASS)
mu<-c(rep(0,p))
Sigma<-diag(1,ncol=p,nrow=p)
a<-matrix(rep(n,Nsimul),ncol=Nsimul)
X<-array(apply(a,2,mvrnorm,mu,Sigma),dim=c(n,p,Nsimul))
res<-matrix(apply(X,c(3),Mardia3,n=n,p=p),byrow=T,ncol=2)
res<-data.frame(list(b1.p=res[,1],b2.p=res[,2]))
area<-1-alpha
area1<-alpha/2
area2<-1-alpha/2
Kurtos.inf<-quantile(res[,2],probs=area1)
Kurtos.sup<-quantile(res[,2],probs=area2)
asim.sup<-quantile(res[,1],probs=area)
unlist(list(Kurtos.inf=Kurtos.inf,Kurtos.sup=Kurtos.sup,asim.sup=asim.sup))
}
valores.crit<-simul(n=100,p=3,Nsimul=10000,alpha=0.05)
valores.crit
Kurtos.inf.2.5% Kurtos.sup.97.5% asim.sup.95%
13.036147 16.892567 1.091322
valores.crit<-simul(n=28,p=4,Nsimul=10000,alpha=0.05)
valores.crit
Kurtos.inf.2.5% Kurtos.sup.97.5% asim.sup.95%
19.445199 26.510923 6.111786
Observe que en el anterior programa se utilizo un n umero grande de simulaciones: 10000. Retomemos
el ejemplo 1: A un nivel del 5%, n =100 y p = 3, rechazamos la hipotesis de multinormalidad si
b
1,p
> 1.091322 o si b
2,p
> 16.892567, o b
2,p
< 13.036147, y comparando con los valores observados se
llega a la conclusion de no rechazo de la hipotesis de multinormalidad.
Para el ejemplo 2: A un nivel del 5%, n =28 y p = 4, echazamos la hipotesis de multinormalidad si
b
1,p
> 6.111786 o si b
2,p
> 26.510923, o b
2,p
< 19.445199, y comparando con los valores observados se
concluye que la hipotesis de multinormalidad no se rechaza.
4.4.4 Otro procedimiento: Graco Chi cuadrado
Bajo una distribucion normal multivariada Np (, ), y muestras aleatorias con n y n p grandes, la
distancia estadstica o distancia de Mahalanobis SD
2
i
(ver ec. 3.5) se distribuye aproximadamente como
4.4. EVALUACI

ON DEL SUPUESTO DE NORMALIDAD MULTIVARIADA 31


una chi cuadrado con p grados de libertad.
Suponga una muestra aleatoria x
1
, x
2
, . . . , x
n
, las correspondientes distancias SD
2
1
, SD
2
2
, . . . , SD
2
n
se comportan aproximadamente como una variable chi cuadrado, a pesar de que no son independientes
(Johnson, R. y Wichern, D. (1998)). Los pasos para elaborar el graco son los siguientes:
1. Calcular las n distancias SD
2
i
y ordenarlas en forma ascendente, obteniendo la muestra ordenada
SD
2
(1)
, SD
2
(2)
, . . . , SD
2
(n)
.
2. Gracar los pares
_
U
i
_
i0.5
n
_
, SD
2
(i)
_
, donde U
i
_
i0.5
n
_
es el percentil 100
_
i0.5
n
_
% de la distribu-
cion
2
p
.
3. Calcular el coeciente de correlacion de Pearson para el graco, con el cual se prueba
H
0
: corr
_
U
i
_
i0.5
n
_
, SD
2
(i)
_
= 0
H
1
: corr
_
U
i
_
i0.5
n
_
, SD
2
(i)
_
,= 0
que es una forma de probar asociacion lineal, junto con el analisis visual del graco para establecer
si los puntos se ajustan a una linea recta con pendiente de 45

.
A continuacion se presenta una funcion creada en R, con el nombre de gracochi2, para realizar tanto el
graco Q Q chi cuadrado y la prueba de Pearson. Por defecto la funcion realiza el test de Pearson al
5%:
graficochi2<-function(X, alpha=0.05){
n<-nrow(X)
p<-ncol(X)
Xmedia<-apply(X,2,mean)
Sn<-((n-1)/n)*cov(X)
Mahal<-mahalanobis(X,center=Xmedia,cov=Sn)
Ui<-qchisq(ppoints(n,a=0.5), df=p)
qqplot(Ui, Mahal,main = expression("Q-Q plot de las distancias de Mahalanobis"* ~D^2 *" vs. Cuantiles de" * ~ chi[p]^2),
cex.main=0.8,cex.lab=0.7)
abline(0, 1, col = gray,lty=2)
#Prueba de pearson sobre correlacion ebtre percentiles
#teoricos y percentiles observados en el grafico de
#probabilidad chi cuadrado:
library(ctest)
Mahal.ord<-sort(Mahal)
confianza<-1-alpha
pruebacorr<-cor.test(Ui, Mahal.ord,alternative ="two.sided",method = "pearson",conf.level = confianza)
pruebacorr
}
Aplicando la anterior funcion a los datos del ejemplo 1 del procedimiento de Mardia, se obtiene:
graficochi2(X)
Pearsons product-moment correlation
data: Ui and Mahal.ord
t = 103.1108, df = 98, p-value = < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9931928 0.9969234
sample estimates:
cor
0.9954228
32 CAP

ITULO 4. DISTRIBUCIONES MUESTRALES


en la anterior salida se observa una corrrelacion de 0.9954228, el valor del estadstico de prueba t =
103.1108, los grados de libertad n 2 = 98 y el valor p de la prueba p value =< 2.2e 16, con la cual
se rechaza la hipotesis de no correlacion y se concluye que existe relacion lineal entre U
i
y SD
2
(i)
, por
tanto se tiene evidencia de que la muestra original puede ser de una normal multivariada. El graco chi
cuadrado arrojado por la funcion aparece en la gura 4.3.
0 2 4 6 8 10 12
0
2
4
6
8
1
0
QQ plot de las distancias de Mahalanobis D
2
vs. Cuantiles de
p
2
Ui
M
a
h
a
l
Figura 4.3: Graco Chi cuadrado, datos simulados presentado en el ejemplo 1 del procedimiento de
Mardia, pagina 28.
Tambien se aplico la funcion gracochi2 a los datos de los pesos de corcho, los resultados son los siguientes:
graficochi2(datos)
Pearsons product-moment correlation
data: Ui and Mahal.ord
t = 32.1812, df = 26, p-value = < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.9732107 0.9943554
sample estimates:
cor
0.9876788
se obtuvo un coeciente de correlacion de 0.9876788 con un p value de menos de 2.2e-16, es decir se
rechaza la hipotesis de no correlacion y se concluye que existe relacion lineal entre U
i
y SD
2
(i)
, por tanto
4.4. EVALUACI

ON DEL SUPUESTO DE NORMALIDAD MULTIVARIADA 33


se tiene evidencia de que los datos sobre los pesos del corcho pueden ser de una normal multivariada. El
graco chi cuadrado arrojado por la funcion aparece en la gura 4.4.
0 2 4 6 8 10 12
2
4
6
8
1
0
QQ plot de las distancias de Mahalanobis D
2
vs. Cuantiles de
p
2
Ui
M
a
h
a
l
Figura 4.4: Graco Chi cuadrado, datos pesos del corcho, pagina 29.
34 CAP

ITULO 4. DISTRIBUCIONES MUESTRALES


Bibliografa
[1] Daz M., L. G. (2002). Estadstica Multivariada. Inferencia y Metodos. Universidad Nacional, Fac-
ultad de Ciencias, Departamento de Estadstica, Bogota. pp. 40-76.
[2] Johson, R. A. y Wichern, D. W. (1998). Applied Multivariate Statistical Analysis. 4 ed. Prentice
Hall,New Jersey. pp. 157-222.
[3] Mardia, K. V., Kent, J. T. y Bibby, J. M. (1979). Multivariate Analysis. Academic Press, London.
pp. 1-86.
[4] Rencher, A. C (1995). Methods of Multivariate Analysis. John Wiley & Sons Inc., New York. pp.
94-120.
35

You might also like