Professional Documents
Culture Documents
Contenido
1) Introducción
4) Normalidad Multivariada
5) Distribuciones Muestrales
7) Componentes principales
Evaluación
P rueba P1 P2 P3 P4
P orcentaje 25 % 25 % 25 % 25 %
Capı́tulo 1
Introducción
1.1. Motivación
La investigación cientı́fica es un proceso de aprendizaje iterativo. Los objetivos asociados a la expli-
cación de un fenómeno de interés (tales como enfermedades progresivas, comportamiento del clima,
comportamiento de la bolsa de valores, funcionamiento del cerebro, etc.) son probados a través del
análisis u observación de los datos. Dependiento de la complejidad de muchos fenómenos, es nece-
sario recolectar mayor cantidad de información, la cual es presentada a través de diversos tipos de
caracterı́sticas o variables relacionadas con el fenómeno de interés.
Con el fin de obtener información de datos recolectados de esta forma, es pertinente usar métodos
estadı́sticos que tengan en cuenta no solo la posible correlación entre las observaciones sino tambien
el hecho de que están recolectados en forma vectorial. Este tipo de técnicas están basadas principal-
mente en importantes resultados del álgebra lineal y la estadı́stica.
Definición 1.1.1. El conjunto de técnicas y métodos para estudiar y describir vectores de variables
aleatorias posiblemente correlacionadas se conoce con el nombre de Análisis Multivariado.
El análisis multivariado con sus ventajas y limitaciones ha encontrado una ámplia aceptación en
campos tan diversos como la biologı́a, la medicina, la epidemiologı́a, ingenierı́a de control, las cien-
cias sociales, entre otras.
Esto se debe a que en la investigación frecuentemente se trata de cuantificar la forma en que un con-
junto de variables de interés se relacionan con la presencia o ausencia de una caracterı́stica especı́fica
(por ejemplo una enfermedad mental, afección cardiaca, el rendimiento académico, el deterioro en el
tiempo de un material, la afectividad de un método o un medicamento).
El análisis multivarido constituye pues una poderosa y flexible herramienta estadı́stica que, gracias al
vertiginoso avance en las ciencias computacionales, es posible implementar en la práctica con relativa
facilidad, su vigencia es indiscutible, pero al igual que todas las demás técnicas estadı́sticas debe
usarse con precaución y despues de entender bien el problema que se tiene a mano.
2
1.1. MOTIVACIÓN 3
1. Modelamiento
2. Reducción de datos.
3. Agrupamiento.
4. Clasificación.
5. Dependencia.
6. Predicción.
7. Inferencia.
Los valores asociados a las caracterı́sticas de interés que asumimos están relacionadas al fenómeno
de estudio, son observadas o medidas en forma diferente. Estas formas se conocen como niveles o
escalas de medición. La mayorı́a de estos valores puede ser situado en alguna de las siguientes escalas:
Nominal, Ordinal, de Intervalo y de Razón. El desarrollo de reglas sistemáticas y de unidades signifi-
cativas de medida para identificar o cuantificar las observaciones empı́ricas es llamado Escalamiento.
La clasificación más común distingue cuatro conjuntos de reglas básicas, las cuales producen cuatro
escalas de medida.
1. Escala Nominal. Implica una relación de identidad entre el sistema de números y el sistema
empı́rico objeto de medición. Los números empleados se consideran etiquetas asignadas a los
objetos con el fin de clasificarlos. Tiene una naturaleza no métrica (por ejemplo, la raza, el
género, credo religioso, tipo de sangre, etc.)
4. De razón Similar a la escala anterior, solo que implica un punto de origen fijo o natural: el
cero absoluto. Tambien de naturaleza métrica (por ejemplo, el peso, la talla, la edad, etc.)
4 CAPÍTULO 1. INTRODUCCIÓN
1n = (1, . . . , 1) .
n componentes
n
a • b = a b = a1 b1 + . . . + an bn = ai b i .
i=1
4. Sea a un vector en Rn . La Norma del vector a, la cual se denota a, se define como:
√
a = a a = a21 + . . . + a2n .
c a = |c| a .
7. Sean a y b dos vectores en Rn . El ángulo θ entre estos vectores está dado por:
a b
cos θ = .
a b
9. Una matrı́z se puede definir como un arreglo rectangular de números en filas y columnas.
Usualmente se usan letras mayúsculas para nombrar una matriz con un subı́ndice que indica
la dimensión en filas y columnas. Por ejemplo, una matrı́z A de n filas y p columnas, se denota
An×p , y está dada por: ⎛ ⎞
a11 · · · a1p
⎜ a21 · · · a2p ⎟
⎜ ⎟
A = ⎜ .. .. ⎟
⎝ . . ⎠
an1 · · · anp
Es usual utilizar la notación A = [(aij )]n×p o An×p = [(aij )], para una matrı́z A arbitraria de
orden n × p.
10. Una matrı́z An×p se dice Cuadrada si n = p (cuadrada de orden n). Un caso especial de
matrices cuadradas es la matrı́z Identidad. La matrı́z identidad de orden n se denota In y está
dada por: ⎛ ⎞
1 0
⎜ ⎟
In = ⎝ . . . ⎠
0 1
11. Sea A una matrı́z cuadrada de orden n. Si todas las componentes de la matrı́z A son iguales a
uno, obtenemos la matrı́z de unos, la cual se denota Jn .
12. Una matrı́z cuadrada A de orden n se dice Diagonal si es de la forma:
⎛ ⎞
a1 0
⎜ ... ⎟
An×n = ⎝ ⎠
0 an
13. Sea A = [(aij )] una matriz Cuadrada de orden n. Se puede construir una matrı́z diagonal con
los elementos de la diagonal de A. Dicha matrı́z es notada Diag(A) y está dada por:
⎛ ⎞
a11 0
⎜ ... ⎟
Diag(A) = ⎝ ⎠
0 ann
14. Sean A = [(aij )]n× p y B = [(bij )]n× p matrices. La suma o Resta de las matrices A y B es una
nueva matriz C, la cual está dada por:
⎛ ⎞
a11 ± b11 · · · a1p ± b1p
⎜ .. .. ⎟
C = A ± B = [(aij ± bij )]n×p = ⎝ . . ⎠
an1 ± bn1 · · · anp ± bnp
15. Sean A = [(aij )]n× p y B = [(bij )]p× k matrices. El producto de las matrices A y B es una nueva
matriz C la cual está dada por: C = A B = [(cij )]n×k , donde la entrada cij de C está dada por:
p
cij = ai1 b1j + · · · + aip bjp = ail blj .
l=1
6 CAPÍTULO 1. INTRODUCCIÓN
Observe que para que el producto AB sea posible, el número de columnas de A debe ser igual
al número de filas de B. Si A y B son matrices cuadradas de orden n ambos productos A B y
B A pueden realizarse, pero en general AB = BA.
16. Sea A = [(aij )] una matriz de orden n × p. La Transpuesta de A es una matrı́z de orden p × n
la cual se denota AT o A y está dada por A = [(aji )] (las filas de A son las columnas de A ).
Si A = A diremos que A es Simétrica.
17. Sea A una matrı́z de orden n × p. Si existe una matriz B de orden p × n tal que A B = In , se
dice que B es la Inversa a derecha de la matrı́z A. Análogamente, si existe una matriz C de
orden p × n tal que C A = Ip , se dice C es la Inversa a izquierda de la matrı́z A.
18. Sea A una matrı́z cuadrada de orden n. Si existe una matrı́z cuadrada B de orden n tal que
A B = B A = In , se dice que B es la Inversa de A, la cual se denota A−1 . Esta matrı́z A−1
cumple que (A )−1 = (A−1 ) .
20. Sean X1 , . . . , XK k vectores en Rn . Se dice que estos k vectores son Linealmente Indepen-
dientes si el sistema de ecuaciones c1 X1 +· · ·+ck Xk = 0 tiene única solución c1 = · · · = ck = 0,
para ci ∈ R, i = 1, 2, · · · , k. De otra manera, Si denotamos X la matriz cuyas columnas son
X1 , · · · , XK , y haciendo c = (c1 , · · · , ck ), se dice que los k vectores X1 , . . . , XK son lineal-
mente independientes, si el sistema X c = 0 tiene solución única c = 0, donde 0 = (0, · · · , 0).
21. Sea A una matrı́z cuadrada de orden n. Se dice que λ es un valor propio de A asociado al vector
propio x, si A x = λ x. Al dividir el vector propio x por su norma obtenemos un vector, el cual
se denota e, es decir, e = √ x .
x
22. Sea A = [(aij )] una matrı́z cuadrada de orden n. El determinante de A, el cual se denota |A|,
se obtiene como:
n
|A| = aij |Aij | (−1)i+j ;
j=1
|A| = |A |.
|A B| = |A| |B|.
|c A| = cn |A|, donde c ∈ R.
n
Si λ1 , · · · , λn son los n valores propios de A, entonces |A| = i=1 λi .
A es invertible, entonces |A| = 0; esto equivale a decir que todos los valores propios de A
son diferentes de cero.
1
si A−1 existe, entonces |A−1 | = .
|A|
1.2. REPASO DE ÁLGEBRA LINEAL 7
En general, los datos multivariados aparecen cuando se recolectan un número p ≥ 2 de variables. Los
valores de estas variables se miden u observan para todos los sujetos o unidades experimentales. Por
notación, De ahora en adelante el valor de la k-ésima variable que se registró en el j-ésimo sujeto, se
denotará xjk . De esta manera, si se tienen n sujetos y p variables, esta información se puede organizar
en una matriz que se conoce como matriz de datos:
⎛ ⎞
x11 x12 · · · x1p
⎜ .. .. ⎟ .
Xn× p =⎝ . . ⎠
x1n xn2 · · · xnp
Ejemplo 2.1.1. Se realizó una encuesta a 1000 estudiantes de cierta universidad. Se recopilo in-
formación acerca del Valor de la Matrı́cula, el Promedio obtenido en el semestre anterior, las horas
dedicadas semalamente a estudiar, el Estrato socioeconómico, si el estudiante trabaja o no y la fa-
cultad a la cual pertenece.
8
2.2. ESTADÍSTICOS DESCRIPTIVOS (O DE RESUMEN) 9
Para definir algunas de las medidas básicas de tendencia, variabilidad y asociación entre variables,
se asume inicialmente que las carácterı́sticas de interés son obtenidas de los sujetos u objetos prin-
cipalmente, a través de un proceso de medición. Suponga que p caracterı́sticas son medidas sobre
n sujetos u objetos. La información resultante es resumida en una matrı́z (usualmente denominada
Matrı́z de Datos) del tipo relacionado anteriormente.
Definición 2.2.1. Para j fijo, con j = 1, 2, · · · , p, se tiene un conjunto de n mediciones x1j , x2j , · · · , xnj
(correspondientes a n sujetos u objetos). La Media muestral de estas mediciones se define como:
1
n
x̄j = xkj
n k=1
1
n
sij = (xki − x̄i )(xkj − x̄j ) ; para i, j = 1, . . . , p
n k=1
Propiedades.
10 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
ρij = ρji .
−1 ≤ ρij ≤ 1.
Los valores de ρij permanecen invariables si las medidas de la i-ésima variable se cambian por
yki = a xki + b y los de la j-ésima variable se cambian por ykj = c xkj + d, siempre y cuando a
y c tengan el mismo signo, con a, c ∈ R.
Ejemplo 2.2.1. Con los datos del ejemplo 1, usaremos una matriz de datos que contenga información
solo de las variables Valor de la Matrı́cula, el Promedio obtenido en el semestre anterior y las horas
dedicadas semanalmente a estudiar.
Usando el paquete R se obtienen los siguientes resultados. Usando el paquete R, se tienen los siguien-
tes resultados (los datos de interés están en el archivo estud.txt).
> xm <-read.table(file.choose(), header=T)
> dim(xm)
[1] 1000 3
> xm[1:3,]
> apply(xm,2,"mean")
VMATRI PROM HORAS
644.2483 3.5008 24.0980
> numSummary(xm)
> var(xm)
Partial correlations:
VMATRI PROM HORAS
VMATRI 0.00000 0.03213 -0.01473
PROM 0.03213 0.00000 0.04241
HORAS -0.01473 0.04241 0.00000
Ejemplo 2.3.1. Para el ejemplo anterior, la forma matricial de los estadı́sticos descriptivos es la
siguiente:
⎛ ⎞
644.248
x̄ = ⎝ 3.5 ⎠
24.1
12 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
⎛ ⎞
26460.67008 1.95931 −8.36819
Sn = ⎝ 1.95931 0.14591 0.06158 ⎠
−8.36819 0.06158 14.75916
⎛ ⎞
1 0.03153 −0.01339
R = ⎝ 0.03153 1 0.04197 ⎠ .
−0.01339 0.04197 1
Ejemplo 2.4.1. Usando los datos del Ejemplo 2.1.1., sobre los estudiantes, relacionados con Va-
lor de Matrı́cula, Promedio semestre anterior, Horas dedicadas semanalmente a estudiar y estrato
socioeconómico.
a=table(xm[,4])/1000
a
1 2 3 4 5 6
0.076 0.299 0.389 0.106 0.084 0.046
par(mfrow=c(2,2), new=T)
hist(xm[,1], col=’blue’, main=’Histograma Matricula’, xlab="V. Matricula")
hist(xm[,2], col=’cyan’, main=’Histograma Promedios’, xlab="Promedio")
hist(xm[,3], col=’green’, main=’Histograma Horas’, xlab="Horas")
barplot(table(xm[,4])/1000, ylim=c(0,0.45), xlab="Estrato", main=’Diagrama Barras Estrato’, col=c(’blue’,’red’,’yellow’,’gre
Box Plot
library(rgl)
plot3d(xm[,1],xm[,3],xm[,2])
play3d(spin3d(plot3d(xm[,1],xm[,3],xm[,2])), duration=10)
x=seq(-3,3,length=100)
2.4. REPRESENTACIONES GRÁFICAS 15
y=seq(-3,3,length=100)
supe=function(x,y) x^2+y^2+x*y+1
z=outer(x, y, supe)
persp(x,y,z)
persp(x,y,z, phi = 30)
persp(x,y,z,theta = 30)
16 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
par(mfrow=c(1,2))
persp(x,y,z,theta = 25, phi=-10,col="cyan")
image(x,y,z)
contour(x,y,z,add=T, col="black")
x=seq(-4,4,length=100)
y=seq(-9,9,length=100)
nor_biv <- function(x,y){
p=0.1
mu1=0
mu2=0
sig1=1
sig2=3
au=2*3.1416*sig1*sig2*(1-p^{2})^{0.5}
(1/au)*exp(-(1/(2*(1-p^{2})))*(((x-mu1)/sig1)^{2}-2*p*((x-mu1)/sig1)*((y-mu2)/sig2)+((y-mu2)/sig2)^{2}))
}
z=outer(x, y, nor_biv)
persp(x,y,z,theta = 25, phi=15)
Gráficos Múltiples
De estrellas Los siguientes comandos en R permiten obtener un gráfico de estrellas. Para
simplificarlo, se usaron solo las 11 primeras observaciones.
xm <- xm[1:11,c(1,2,3)]
colnames <-c("Matr","Prom","Horas")
stars(xm, key.labels=abbreviate(colnames), key.loc=c(8,2),
main="Grafico de Estrellas para Matricula, Promedio y Horas")
Cluster
Se tiene información sobre las utilidades de 22 compañı́as públicas en estados Unidos en 1975.
Nueve variables son registradas: X1 : ingreso/deduda, X2 : Tasa de retorno de capital, X3 : Costo
per-cápita en el lugar, X4 : Factor de carga anual, X5 : Crecimiento per-cápitade la demanda
de 1974 a 1975, X6 : Ventas (uso per-cápita de KWH anual, X7 : Porcentaje nuclear, X8 : Costo
20 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
total de combustible (centavos por KWH) y Lugar. Los datos se muestran a continuación.
X1 X2 X3 X4 X5 X6 X7 X8 Lugar
1.06 9.2 151 54.4 1.6 9077 0.0 0.628 Arizona
0.89 10.3 202 57.9 2.2 5088 25.3 1.555 Boston
1.43 15.4 113 53.0 3.4 9212 0.0 1.058 Central
1.02 11.2 168 56.0 0.3 6423 34.3 0.700 Common
1.49 8.8 192 51.2 1.0 3300 15.6 2.044 Consolid
1.32 13.5 111 60.0 -2.2 11127 22.5 1.241 Florida
1.22 12.2 175 67.6 2.2 7642 0.0 1.652 Hawaiian
1.10 9.2 245 57.0 3.3 13082 0.0 0.309 Idaho
1.34 13.0 168 60.4 7.2 8406 0.0 0.862 Kentucky
1.12 12.4 197 53.0 2.7 6455 39.2 0.623 Madison
0.75 7.5 173 51.5 6.5 17441 0.0 0.768 Nevada
1.13 10.9 178 62.0 3.7 6154 0.0 1.897 NewEngla
1.15 12.7 199 53.7 6.4 7179 50.2 0.527 Northern
1.09 12.0 96 49.8 1.4 9673 0.0 0.588 Oklahoma
0.96 7.6 164 62.2 -0.1 6468 0.9 1.400 Pacific
1.16 9.9 252 56.0 9.2 15991 0.0 0.620 Puget
0.76 6.4 136 61.9 9.0 5714 8.3 1.920 SanDiego
1.05 12.6 150 56.7 2.7 10140 0.0 1.108 Southern
1.16 11.7 104 54.0 -2.1 13507 0.0 0.636 Texas
1.20 11.8 148 59.9 3.5 7287 41.1 0.702 Wisconsi
1.04 8.6 204 61.0 3.5 6650 0.0 2.116 United
1.07 9.3 174 54.3 5.9 10093 26.6 1.306 Virginia
Agrupando las observaciones
Definición 3.0.1. Un vector aleatorio es aquel cuyas componentes son variables aleatorias.
Definición 3.0.2. Una matriz aleatoria es aquella cuyas componentes son variables aleatorias.
Definición 3.0.3. El valor esperado de una matriz (o un vector), es una matriz cuyos elementos
son los valores esperados de cada entrada de la matriz. En otras palabras, si X = [(Xij )]n×p es
una matrı́z aleatoria, entonces:
⎛ ⎞
E(X11 ) · · · E(X1p )
⎜ .. ⎟
E(X) = ⎝ ... . ⎠
E(Xn1 ) · · · E(Xnp )
Aquı́,
xij f (xij ) dxij , Si Xij es continua
E(Xij ) =
xij f (xij ) , Si Xij no es continua
donde
F (x1 , · · · , xp ) = P (X1 ≤ x1 , · · · , Xp ≤ xp )
es la distribución conjunta acumulada de X1 , · · · , Xp .
23
24 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS
donde
donde
σij
ρij = √ √
σii σjj
⎛√ ⎞
σ11 0
⎜ .. ⎟
Haciendo V 1/2 = ⎝ . ⎠, tenemos que:
√
0 σpp
⎡ ⎤
X1
⎢ .. ⎥
⎢ . ⎥ ⎛ ⎞
⎢ ⎥
⎢ Xq ⎥ X(1)
⎢ ⎥
X = ⎢ − − − ⎥ = ⎝− − − ⎠ .
⎢ ⎥
⎢ Xq+1 ⎥ X(2)
⎢ . ⎥
⎣ .. ⎦
Xp
Entonces:
⎛ ⎞
μ1
⎜ .. ⎟
⎜ . ⎟ ⎛ ⎞
⎜ ⎟
⎜ μq ⎟ μ(1)
⎜ ⎟
μ = E(X) = ⎜− − −⎟ = ⎝− − −⎠ .
⎜ ⎟
⎜ μq+1 ⎟ μ(2)
⎜ . ⎟
⎝ .. ⎠
μp
Ahora,
⎛ ⎞
X 1 − μ1
⎜X2 − μ2 ⎟
⎜ ⎟
(X(1) − μ(1) )(X(2) − μ(2) ) = ⎜ .. ⎟ (Xq+1 − μq+1 , · · · , Xp − μp )
⎝ . ⎠
X q − μq
⎛ ⎞
(X1 − μ1 )(Xq+1 − μq+1 ) · · · (X1 − μ1 )(Xp − μp )
⎜ .. .. ⎟
=⎝ . . ⎠
(Xq − μq )(Xq+1 − μq+1 ) · · · (Xq − μ) (Xp − μp )
Ası́,
⎛ ⎞
σ1,q+1 σ1,q+2 · · · σ1,p
(1) (1) (2) (2) ⎜ .. .. ⎟ = Σ
E[(X − μ )(X − μ )] = ⎝ . . ⎠ 12
σq,q+1 ··· ··· σq,p
Como,
26 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS
(X(1) − μ(1) )(X(1) − μ(1) ) (X(1) − μ(1) )(X(2) − μ(2) )
=
(X(2) − μ(2) )(X(1) − μ(1) ) (X(2) − μ(2) )(X(2) − μ(2) )
Σ11 Σ12
⇒ Σ = E[(X − μ)(X − μ) ] =
Σ21 Σ22
donde,
⎧
⎪
⎨Σ11 es de orden q × q
Σ12 = Σ21 es de orden q × (p − q)
⎪
⎩
Σ22 es de orden (p − q) × (p − q)
E(cX1 ) = c E(X1 ).
E(a X1 + b X2 ) = a E(X1 ) + b E(X2 ).
V (c X1 ) = c2 V (X1 ).
Cov(a X1 , b X2 ) = a b Cov(X1 , X2 ) = a b σ12 .
V (a X1 + b X2 ) = a2 V (X1 ) + b2 V (X2 ) + 2 a b Cov(X1 , X2 )
= a2 σ11 + b2 σ22 + 2a b σ12
De manera similar,
μ1 ! "
E(a X1 + b X2 ) = aμ1 + bμ2 = a b = c μ
μ2
σ11 σ12
Si Σ = , entonces,
σ12 σ22
3.2. MEDIA Y VARIANZA DE COMBINACIONES LINEALES 27
!
" σ11 σ12 a
c Σc= a b
σ12 σ22 b
= a2 σ11 + b2 σ22 + 2 a b σ12
= V (c X) = V (aX1 + bX2 )
E(c X) = c μ y V ar(c X) = c Σ c
En general, sea C = [(cij )]q×p una matriz de constantes reales y X un vector aleatorio en Rp . Defina
Z = C X, entonces
E(Z) = E(CX) = C μ y Cov(CX) = C Σ C
donde, μ = E(X) y Σ = Cov(X).
2
Ejemplo 3.2.1. Sea X = (X1 ,X2 ) un vector aleatorio en R con media μX = (μ1 , μ2 ) y matrı́z
σ11 σ12
de covarianzas ΣX = . Sea Z = (Z1 , Z2 ) un vector aleatorio, cuyas componentes están
σ12 σ22
dadas por: Z1 = X1 − X2 y Z2 = X1 + X2 . Calcule la media y la matrı́z de covarianzas del vector Z.
⎛ ⎞
s11 · · · s1p
⎜ ⎟
Sn = ⎝ ... ⎠
s1p · · · spp
⎛ ⎞
1
n
1
n
⎜ n
(xj1 − x̄1 )2 ··· n
(xj1 − x̄1 )(xjp − x̄p )⎟
⎜ j=1 j=1 ⎟
⎜ .. .. ⎟
= ⎜ . . ⎟
⎜ n ⎟
⎝1 1
n
2 ⎠
n
(xj1 − x̄1 )(xjp − x̄p ) · · · n
(xjp − x̄p )
j=1 j=1
donde
⎧
⎪
⎨S11 es de orden q × q
S12 = S21 es de orden q × (p − q)
⎪
⎩
S22 es de orden (p − q) × (p − q)
3.4. FORMAS MATRICIALES EFICIENTES 29
1 1
Sn = X In − 1n 1n X
n n
En efecto. Haciendo x̃ = (x1 − x̄, · · · , xn − x̄) , tenemos que
1
x̃ = x − x̄ 1n = x In − 1n 1n
n
! " ! " ! "
Pero como In − n1 1n 1n In − n1 1n 1n = In − n1 1n 1n , entonces:
1
n
1 1 1
(xi − x̄)(xi − x̄) = X̃ X̃ = X I n − 1n 1n X
n i=1 n n n
R = D−1/2 Sn D−1/2 ,
donde D−1/2 es la matriz diagonal con los inversos de las desviaciones estándar sobre la diagonal;
es decir,
⎡ 1 ⎤
√
s11
0 ··· 0
⎢ √1
⎥
⎢ 0 s22
··· 0 ⎥
D −1/2
=⎢⎢ .. .. ⎥ .
⎥
⎣ . . 0 ⎦
1
0 0 ··· √
spp
%
n
h(x1 , · · · , xn ) = h1 (x1 ) · · · hn (xn ) = f (xi ) .
i=1
El siguiente resultado es de gran importancia para la parte inferencial acerca del vector de medias
y matriz de covarianzas de un vector aleatorio (usualmente conocidos como el vector de medias y
matriz de covarianzas de la población).
Teorema 3.5.1. Sea X1 , · · · , Xn una muestra aleatoria de una distribución p-variada con vector de
medias μ y matrı́z de varianzas y covarianzas Σ. Entonces:
1
E(X̄) = μ y Cov(X̄) = Σ.
n
n−1
E(Sn ) = Σ
n
Prueba
Primero observe que
1
X̄ = (X1 + · · · + Xn )
n
De esta manera se tiene que:
1 1
E(X̄) = E(X1 ) + · · · + E(Xn )
n n
1 1
= μ + ··· + μ = μ
n n
3.5. MUESTRAS ALEATORIAS DE DISTRIBUCIONES P - VARIADAS 31
# $# $
1 1
n n
(X̄ − μ) (X̄ − μ) = (Xj − μ) (Xk − μ)
n j=1 n k=1
1
n n
= (X̄j − μ) (X̄k − μ)
n2 j=1 k=1
De donde se obtiene,
1 &
n
' 1
Cov(X̄) = E (X̄j − μ) (X̄j − μ) = 2 (Σ + · · · + Σ)
2
n j=1 n
n términos
1 1
= 2
(n Σ) = Σ
n n
Para calcular el valor esperado de Sn observe que:
! "! " &! "! "'
Xj − X̄ Xj − X̄ = Xji − X̄i Xjk − X̄k
Ahora,
n
! "! "
n
! "
n
! "! "
Xj − X̄ Xj − X̄ = Xj − X̄ Xj + Xj − X̄ −X̄
j=1 j=1 j=1
n
= ¯´
Xj Xj − n X̄ X
j=1
Para cualquier vector aleatorio V con media μV y matrı́z de covarianzas ΣV , se tiene que:
E [V V ] = ΣV + μV μV .
n * + n
! " ¯ 1
E Xj Xj − n E X̄ X´ =
(Σ + μ μ ) − n Σ + μμ
j=1 j=1
n
= n Σ + μ μ − Σ − μ μ = (n − 1) Σ
Como # $
1
n
Sn = ¯´
Xj Xj − n X̄ X
n j=1
se concluye que
n−1
E (Sn ) = Σ .
n
Los anteriores resultados indican que el vector de medias muestrales es un estimador insesgado para
μ y que la matrı́z de covarianzas muestral es un estimador sesgado para la matrı́z de covarianzas
poblacional Σ. Un estimador insesgado para Σ, está dado por:
(# $)
1
n
n
S = Sn = (xji − x̄i ) (xjk − x̄k )
n−1 n − 1 j=1
3.6. Distancia
Muchas de las importantes técnicas del análisis mutivariado se basan en el concepto de distancia.
El medir distancias entre variables es importante ya que permite obtener una idea de la proximidad
entre ellas. La distancia permite también juzgar lo plausible de una estimación o la bondad de ajuste
de un modelo.
Sin embargo, la distancia euclidea no es completamente satisfactoria desde un punto de vista es-
tadı́stico, ya que cada coordenada esta ponderada por un mismo factor. Cuando las coordenadas
representan medidas sujetas a fluctuaciones aleatorias de diferentes magnitudes (por ejemplo, la al-
tura(en metros) y la masa(en kilogramos)), es preferible ponderar de acuerdo a su variabilidad. Lo
usual es usar ponderaciones pequeñas para las coordenadas sujetas a un alto grado de variabilidad
(para juzgar la variabilidad es conveniente calcular estadı́sticos de resumen y/o hacer gráficos.) Por
esto es necesario desarrollar una distancia que tenga en cuenta la variabilidad y la dependencia entre
las variables(correlación).
3.6. DISTANCIA 33
Por simplicidad, suponga que se tienen n pares de mediciones en dos variables X1 y X2 , de manera
que las mediciones para X1 varian independientemente de las mediciones para X2 . Adicionalmente,
asuma que la variabilidad en X1 es mayor que la de X2 (ver figura 3.1).
El proceso de dividir cada valor de la variable por su desviación estándar, permite que estas sean
comparables (esto es necesario debido a la diferencia en la variabilidad). En otras palabras, las
observaciones resultantes, x∗1 y x∗2 estarán dadas por:
x1 x2
x∗1 = √ y x∗2 = √
s11 s22
La distancia euclidea entre el punto (x∗1 , x∗2 ) y el origen de coordenadas (0, 0), denominada Distancia
Estadı́stica, está dada por: ,
∗2 ∗2 x21 x22
d(0, P ) = x1 + x2 = + .
s11 s22
donde P = (x∗1 , x∗2 ).
Si en vez de dos variables tenemos p variables, manteniendo la premisa de independencia entre ellas,
y tal como en el caso de dos variables, dividimos cada observación por su respectiva desviación
estándar, tenemos que la distancia estadı́stica entre P = (x1 , . . . , xp ) y el origen de coordenadas en
Rp , 0 = (0, · · · , 0) está dada por:
,
x21 x2p
d(0, P ) = + ··· +
s11 spp
Nota: Si s11 = s22 = · · · = spp , entonces la distancia euclidiana es apropiada para el cálculo de la
distancia entre P y Q.
En general, la distancia euclidiana no es recomendable porque:
34 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS
Si las variables no varian independientemente unas de otras, estas expresiones no son adecuadas.
Suponga nuevamente que se tienen un par de variables aleatorias X1 y X2 , las cuales no son inde-
pendientes (ver figura 3.2).
Observe que al rotar cierto ángulo θ esta dependencia disminuye en los nuevos ejes x̃1 , x̃2 .
Hacienco P = (x̃1 , x̃2 ) y usando las varianzas muestrales de las nuevas variables x̃1 y x̃2 , se tiene que:
,
x̃21 x̃2
d(0, P ) = + 2
s̃11 s̃22
La relación entre estas coordenadas (x̃1 , x˜2 ) y las originales (x1 , x2 ) está dada por:
Aquı́, a11 , a12 , a22 están determinados por θ, y s11 , s12 , s22 se obtienen de los datos:
cos2 (θ) sen2 (θ) sen(θ) cos(θ) (s22 − s11 ) sen2 (θ) cos2 (θ)
a11 = + , a12 = , a22 = + .
s11 s22 s11 s22 s11 s22
3.6. DISTANCIA 35
d(P, Q) = a11 (x1 − y1 )2 + · · · + app (xp − yp )2 + 2 a12 (x1 − y1 ) (x2 − y2 ) + . . . + 2 ap−1,p (xp−1 − yp−1 ) (xp − yp ) .
(X − μ) Σ−1 (X − μ) .
(X − X̄) S −1 (X − X̄) .
Resumen:
La distancia de Mahalanobis entre dos vectores X y Y ∈ Rp , está dada por:
y por
(X − y) S −1 (X − y) si Σ es desconocida .
.
36 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS
y por
(X − X̄) S −1 (X − X̄) si Σ y μ son desconocidas .
Si X̄1 y X̄2 son vectores de medias asociados con dos grupos diferentes, la distancia de Maha-
lanobis estimada entre ambas está dada por:
Usos:
La distancia de Mahalanobis puede usarse para medir la distancia entre dos individuos:
(X − Y) Σ−1 (X − Y) ,
(X − μ) Σ−1 (X − μ) .
Puede usarse para medir la distancia entre las medias de dos poblaciones:
(μ1 − μ2 ) Σ−1
p (μ1 − μ2 ) .
Esta distancia tiene los mismos inconvenientes que la distancia euclidiana. En este caso, la
distancia euclidiana es un caso particular de la de Minkowski, cuando q = 2.
Distancia de Manhattan. esta se obtiene de la distancia de Minkowski haciendo q = 1:
p
δm1 (i, j) = |xik − xjk | .
k=1
3.6. DISTANCIA 37
Distancia Máxima.
Distancia de Canberra.
p
|xik − xjk |
δC (i, j) = .
|xik | + |xjk |
k=1
Usando la tabla anterior, se pueden definir varias distancias o medidas de similaridad. Haciendo
p = a + b + c + d, se tiene:
Sokal y Michener:
a+d
sij = .
p
Jaccard:
a
sij = .
a+b+c
Al aplicar estos indicadores a las n observaciones se obtiene una matriz de similaridades S = [(sij )]n×n .
Ejercicio 3.6.1. Suponga que se tiene información sobre 4 sujetos en 6 variables, en las cuales se
han clasificado como presencia (1) o ausencia (0) de cierta patologı́a. Los resultados se muestra en
la siguiente tabla.
38 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS
Sujeto X1 X2 X3 X4 X5 X6
1 1 1 0 0 1 1
2 1 1 1 0 0 1
3 1 0 0 1 0 1
4 1 0 1 0 0 0
Usando el ı́ndice de Sokal y Michener se obtiene las siguientes tablas para el sujeto 1 comparado con
los demás (ver figura 3.4).:
⎛ 2 1 1⎞
1 3 2 3
⎜2 1 1 2⎟
SSM =⎜ 3
⎝1 1 1
2 3⎟
1⎠
2 2 2
1 2 1
3 3 2 1
Ejercicio 3.6.2. Los biólogos Grojan y Wirth (1981) describieron dos nuevas especies de insectos,
Ameroheleafasciata (AF) y Apseudofasciata (APF). Puesto que las especies son similares en
apariencia, resulta útil para el biólogo estar en capacidad para clasificar un especimen como AF o
APF basado en caracterı́sticas externas que son fáciles de medir. Entre algunas de las caracterı́sticas
que distinguen los AP de los APF, Grojan y Wirth reportan medidas de la longitud de las antenas
y la longitud de las alas, ambas en milı́metros, de nueve insectos AF y seis insectos APF. Una de
las preguntas que los motivó a llevar a cabo su estudio fue: “¿será posible encontrar una regla que
nos permita clasificar un insecto dado como AF o APF, basados unicamente en mediciones de las
antenas y las alas?”
(La respuesta a esta pregunta es afirmativa y el método se verá más adelante en el curso). Los datos
recopilados son:
3.6. DISTANCIA 39
library(ggplot2)
1. Grafico X vs Y
2. Vectores de Medias
af <- insec[insec[,1]=="AF",]
apf <- insec[insec[,1]=="APF",]
40 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS
Distancia euclidea
Recopilando información con humanos. Puede suceder que algunas personas no asistan el dı́a
acordado para registrar su información.
Laboratorios. Un accidente puede producir información incompleta.
Encuestas. Algunas personas puede negarse a dar información.
Error humano. Al recopilar la información computacionalmente se pueden cometer errores de
omisión o de digitación.
Existen técnicas que trabajan bien en presencia de datos faltantes pero otras funcionan bien uni-
camente en presencia de datos completos. Algunas veces se opta por eliminar aquellos sujetos con
información incompleta; sto puede traer consecuencias no deseadas ya que el tamaño muestral se pue-
de ver fuertemente reducido y esto puede comprometer la calidad de las estimaciones. Una alternativa
de estimar las observaciones faltantes (Imputación de datos)
El paquete SAS, contiene un procedimiento llamado PROC MI, un proceso experimental que imputa
automaticamente todos los datos faltantes en una base de datos.
En R se usa el paquete vim.
42 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS
require(VIM)
require(FactoMineR)
require(tidyr)
require(dplyr)
require(magrittr)
Paso 1. Primero ajustamos un modelo de regresión lineal múltiple de x1 contra las variables
x2 , x3 y x4 . La ecuación de regresión ajustada es la siguiente:
Despúes de repetir el proceso dos veces más se tiene x̂1 = 1.25, x̂3 = 5.52.
Usando la media muestral se obtiene x̂1 = 1.45, x̂3 = 6.31.
Capı́tulo 4
De las mismas manera en que muchas técnicas univariadas (tales como el ánalis de regresión) se
basan en la distribución normal, muchas de las técnicas multivariadas se basan en la que se conoce
como la distribución normal multivariada.
En el caso univariado cuando no se cumple el supuesto de normalidad existen algunas alternativas
para este problema:
1. Transformación de datos.
2. Uso de teoremas limites (Estadı́stica Asintótica).
3. Técnicas no paramétricas.
La importancia de la distribución normal multivariada radica en un sin-número de propidades aso-
ciadas con ella y a resultados asintóticos muy importantes relacionados con distribuciones muestrales
(TLC). Matemáticamente es una distribución razonablemente tratable; sirve como un modelo pobla-
cional para ciertos fenómenos naturales y de ella se pueden derivar otras importantes distribuciones,
tales como la llamada T 2 de Hotelling y la W de W ishart.
En el análisis multivariado, la normal multivariada, se puede trabajar desde dos perspectivas:
Mediante la p.d.f conjunta
Mediante una caracterización propuesta por RAO basada en la normal univariada.
La p.d.f normal multivariada surge de manera más o menos natural como una extensión de la normal
univariada. Recuerde que en el caso univariado, si X ∼ N (μ, σ 2 ), entonces:
1 1 x−μ 2
f (x) = √ e− 2 ( σ )
2πσ
1 ! "− 1 1 2 −1
= (2 π) 2 σ 2 2 e− 2 (X−μ) (σ ) (X−μ)
Note que:
2
X −μ ! "−1/2
= (X − μ) σ 2 (X − μ) ,
σ
mide el cuadrado de la distancia entre X y μ escalada según la desviación estándar.
43
44 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA
Esta idea puede generalizarse a un vector X en Rp de observaciones en p variables por medio de:
(X − μ) Σ−1 (X − μ) , ∗
De ahora en adelante se asumirá que Σ es definida positiva (este supuesto garantiza la existencia de
la inversa Σ−1 .) La expresión ∗ indica que se trabaja con la distancia de Mahalanobis entre X y μ .
Definición 4.0.1. Sea X un vector aleatorio ∈ Rp . Se dice que X tiene una p.d.f Normal Multi-
variada, y se escribe X ∼ Np (μ, Σ) si:
e Σ e = e (λe)
= λ e e
=λ.
e = Σ−1 (Σ e) = Σ−1 (λ e)
4.1. ASPECTOS GEOMÉTRICOS RELACIONADOS CON LA NORMAL MULTIVARIADA 45
Entonces
1
e = Σ−1 e
λ
Lo que implica que 1
λ
es un valor propio de Σ−1 asociado al vector propio e.
Ahora, para un vector x = 0, observe que:
# p $
1
x Σ−1 x = x ei ei x
i=1
λi
p
1
= x ei ei x
i=1
λi
p
1 2
= (ei x)
i=1
λi
>0
Esto debido a que λi > 0 y x = 0. De esta manera se concluye que Σ−1 es d.p. Como Σ = P Λ P ,
entonces se verifica fácilmente que Σ−1 = P Λ−1 P , lo que equivale a escribir Σ−1 como:
p
1
−1
Σ = ei ei
i=1
λ i
Ejemplo 4.1.1. Suponga que Σ = [(σij )]2×2 y que σ11 = σ22 . Grafique el elipsoide correspondiente
bajo la restricción de que ρ > 0.
√
Solución. Los ejes del elipsoide estarán dados por ± c λi ei , con i = 1, 2 y c > 0. Para hallar los
valores propios de Σ se debe resolver la ecuación |Σ − λ I2 | = 0.
- -
- σ11 σ12 λ 0 -
|Σ − λ I2 | = -- − -
σ12 σ22 0 λ -
- -
-σ11 − λ σ -
= -- 12 -
σ12 σ11 − λ-
= (σ11 − λ)2 − σ12
2
De esta última expresión se obtiene: λ1 = σ11 + σ12 y λ2 = σ11 − σ12 . Los respectivos vectores
propios se obtienen al resolver la ecuación: Σ e = λi e . Por ejemplo, sea e1 = (e1 , e2 ) el vector propio
asociado al valor propio λ1 . Entonces:
σ11 σ12 e1 e
= (σ11 + σ12 ) 1
σ12 σ11 e2 e2
Ejemplo 4.1.2. Suponga que el vector aleatorio X = (X1 , X2 ) tiene una distribución Normal con
vector de medias μ = (μ1 , μ2 ) y matrı́z de covarianzas Σ. La distribución resultante es llamada
Normal Bivariada. La forma explı́cita de la función se obtiene ası́:
4.1. ASPECTOS GEOMÉTRICOS RELACIONADOS CON LA NORMAL MULTIVARIADA 47
σ11 σ12
Suponga que Σ = . De esta manera se tiene:
σ12 σ22
−1 1 σ22 −σ12
Σ = 2
σ11 σ22 − σ12 −σ12 σ11
√ √
Observe que ρ12 σ11 σ22 = σ12 , con ρ = ρ12 , entonces:
2
σ11 σ22 − σ12 = σ11 σ22 − ρ2 σ11 σ22 = σ11 σ22 (1 − ρ2 )
Ahora,
−1 −1 x 1 − μ1
(x − μ) Σ (x − μ) = (x1 − μ1 , x2 − μ2 ) Σ
x 2 − μ2
√ √
σ22 (x1 − μ1 )2 + σ11 (x2 − μ2 )2 − 2 ρ σ11 σ22 (x1 − μ1 ) (x2 − μ2 )
=
σ11 σ22 (1 − ρ2 )
( 2 2 )
1 x 1 − μ1 x 1 − μ1 x 2 − μ2 x 2 − μ2
= √ − 2 ρ12 √ √ +
1 − ρ2 σ11 σ11 σ22 σ22
f (x) = f (x1 , x2 )
( 2 )
−1/2 1 x 1 − μ 1
= (2π)−2/2 |Σ| exp − √
2(1 − ρ2 ) σ11
ρ x 1 − μ1 x 2 − μ2
× exp √ √
(1 − ρ )
2 σ11 σ22
( 2 )
1 x 2 − μ2
× exp − √
2(1 − ρ )2 σ22
( 2 )
1 x 1 − μ 1
= (2π)−1 (σ11 σ22 (1 − ρ2 )−1/2 ) exp − √
2(1 − ρ2 ) σ11
ρ x 1 − μ1 x 2 − μ2
× exp √ √
(1 − ρ )
2 σ11 σ22
( 2 )
1 x 2 − μ2
× exp − √
2(1 − ρ )2 σ22
Observación:
Recuerde que si X1 y X2 son independientes ⇒ ρ = 0
En la expresión para f (x), con p = 2, si ρ = 0 se tiene que:
48 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA
2 2 .
1 1 x 1 − μ1 x 2 − μ2
f (x1 , x2 ) = √ exp − √ + √
2π σ11 σ22 2 σ11 σ22
( 2 ) ( 2 )
1 1 x 1 − μ1 1 1 x 2 − μ2
=√ √ exp − √ ×√ √ exp − √
2π σ11 2 σ11 2π σ22 2 σ22
= f (x1 ) f (x2 )
3. Si X ∼ Np (μ, Σ) , entonces:
El vector X + d tiene una distribución Np (μ + d, Σ) .
El vector Y = A X + b ∼ Nq (A μ + b , A Σ A ) , donde Aq×p y bq×1 .
⎛ (1) ⎞ ⎛ (1) ⎞
X μ
4. Suponga que X ∼ Np (μ, Σ) , y que X = ⎝ −− ⎠ . Sabemos que: μ = ⎝ −− ⎠ y que
⎛ ⎞ X(2) μ(2)
Σ1 1 | Σ 1 2
Σ = −− | −−⎠ . Entonces: X(1) ∼ Nq (μ(1) , Σ11 ) y X(2) ∼ Np−q (μ(2) , Σ22 ) .
⎝
Σ 2 1 | Σ2 2
X(2)
Sean X(1) y X(2) vectores aleatorios E.I. tales que X(1) ∼ Nq1 (μ(1) , Σ11 ) y X(2) ∼
Nq2 (μ(2) , Σ22 ) . Entonces
⎛ (1) ⎞ ⎛⎛ (1) ⎞ ⎛ ⎞⎞
X μ Σ1 1 | 0
X = ⎝ −− ⎠ ∼ Nq1 +q2 ⎝⎝ −− ⎠ , ⎝ −− | −− ⎠ ⎠ .
X(2) μ(2) 0 | Σ2 2
• La normal multivariada es la única distribución conocida con esta propiedad (covarianza
cero implica que las respectivas componentes son independientes) .
4.2. PROPIEDADES DE LA DISTRIBUCIÓN NORMAL MULTIVARIADA 49
8. Si X ∼ Np (μ, Σ) , entonces la Función Generadora de Momentos del vector X está dada por:
1
MX (t) = exp t μ + t Σ t ,
2
para t ∈ Rp .
9. Matrı́z
! de Covarianzas
" común. Sean X1 , X2 , · · · , Xn vectores aleatorios en Rp tal que Xj ∼
Np μj , Σ entonces
# n # n $ $
V 1 = c 1 X 1 + · · · + c n X n ∼ Np ci μ i , c2i Σ .
i=1 i=1
y matrı́z de covarianzas
⎛ ⎞
n
⎜ c2i Σ
(b c) Σ ⎟
⎜ i=1 ⎟
Σ V1 , V2 =⎜
⎜ n ⎟
⎟
⎝ 2 ⎠
(b c) Σ bi Σ
i=1
50 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA
n
Las combinaciones aleatorias V1 y V2 son estadı́sticamente independientes, si b c = c i bi =
i=1
0.
⎞ ⎛ ⎛ ⎞ ⎛ ⎞
X1 2 7 3 −3 2
⎜X 2 ⎟ ⎜−1⎟ ⎜3 6 0 0⎟
X=⎜ ⎟ ⎜ ⎟ ⎜
⎝X3 ⎠ , μ = ⎝ 3 ⎠ y Σ = ⎝−3
⎟.
0 5 −2⎠
X4 1 2 4 −2 4
1 −2 0 0 1
Note que si A = y b= , entonces
0 1 −1 3 2
X1 − 2 X2 + 1
Y =AX +b= .
X2 − X3 + 3 X4 + 2
5
De esta manera, Y ∼ N2 (μY , ΣY ) , donde μY = A μ + b = y ΣY = A Σ A =
−1
19 −24
.
−24 83
Si, a = (0, 0, 1, 0) , entonces
Y = a X = X3 ∼ N (a μ, a Σ a) = N (3, 5) .
Note que el vector de medias y la matrı́z de covarianzas del vector X(1) se obtienen tomando los
elementos correspondientes de μ y Σ respectivamente.
(1) X2 (1) X1
Considere los sub-vectores X = y X = . Estos sub-vectores corresponden
X4 X3
a un reordenamiento de X , μ y Σ , de la siguiente forma:
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
X2 ⎛ (1) ⎞ μ2 −1
⎜ X4 ⎟ X ⎜ μ4 ⎟ ⎜ 1 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
Y=⎜
⎜− − − ⎟ = ⎝− − − ⎠ ,
⎟ μY =⎜ ⎟ ⎜ ⎟
⎜− − − ⎟ = ⎜ . . . ⎟ y
⎝ X1 ⎠ X(2) ⎝ μ1 ⎠ ⎝ 2 ⎠
X3 μ3 3
⎛ ⎞ ⎛ ⎞
σ2 2 σ2 4 | σ2 1 σ2 3 6 4 | 3 0 ⎛ ⎞
⎜ σ4 2 σ4 4 | σ4 1 σ4 3 ⎟ ⎜ 4 | 2 −2 ⎟ Σ 1 1 | Σ1 2
⎜ ⎟ ⎜ 4 ⎟
ΣY = ⎜
⎜−− −− | −− −−⎟ ⎜ ⎟ ⎝ ⎠
⎟ = ⎜−− −− | −− −−⎟ = − − − | − − − .
⎝ σ1 2 σ1 4 | σ1 1 σ1 3 ⎠ ⎝ 3 2 | 7 −3 ⎠ Σ2 1 | Σ2 2
σ3 2 σ3 4 | σ3 1 σ3 3 0 −2 | −3 5
Note que: ⎛ ⎞⎛ ⎞
0 1 0 0 X1 ⎛ (1) ⎞
⎜0 ⎟ ⎜ ⎟ X
0 0 1⎟ ⎜X2 ⎟ ⎝
Y=⎜
⎝1 = − − −⎠ .
0 0 0⎠ ⎝X3 ⎠
X(2)
0 0 1 0 X4
Por esta razón tener métodos o herramientas para detectar cuando un vector de datos tienen una
distribución que se aleja de la normal, es crucial a la hora de realizar análisis posteriores. Bajo el
supuesto de normalidad multivariada, cualquier combinación lineal de las componentes del vector es
una variable aleatoria normal univariada y los contornos de la distribución multivariada son elipsoides.
En este orden de ideas, algunos pasos previos que pueden dar indicios acerca de la normalidaqd
multivariada o la no-normalidad son:
1. ¿Las distribuciones marginales del vector X parecen comportarse como normales univariadas?
3. Si se elaboran gráficos de dispersión por pares, ¿alguno de ellos parece no mostrar un compor-
tamiento elı́ptico?
Por lo general, cuando se quiere indagar sobre el supuesto de normalidad multivariada, en la mayorı́a
de los casos, el análisis se concentra en una o dos dimensiones, ya que la construcción de pruebas de
normalidad en mas dimensiones, puede ser dificil y en algunos casos, los análisis derivados de ellas
pueden ser equivocados. Afortunadamente, en la práctica, no es frecuente encontrar conjuntos de
datos que sean normales en dimensiones bajas y no lo sean en dimensiones altas.
- - /
- - (0.68269)(0.31731) 1.3963
-P̂i1 − 0.68269- > 3 = √
n n
o
- - /
- - (0.9545)(0.0455) 0.6252
-P̂i2 − 0.9545- > 3 = √ ,
n n
es evidencia de que la i-ésima caracterı́stica no se comporta normalmente. Cuando estas proporcio-
nes son muy pequeñas, se puede intuir que la distribución tiene colas más largas que la normal. El
4.3. EVALUACIÓN DEL SUPUESTO DE NORMALIDAD 53
problema con este proceso es que aunque podamos verificar que a nivel univariado, se cumple la
condición antes descrita, esto no garantiza la normalidad multivariada.
Si las observaciones provienen de una distribución normal N (μ, σ 2 ), se espera que el gráfico de los
pares (μ + σ q(i) , x(i) ) sea aproximadamente una lı́nea recta y por lo tanto σ q(i) + μ estará muy
cerca del cuantil muestral esperado. Si los parámetros μ y σ 2 son desconocidos, pueden usarse los
estimadores MLE, x̄ y 2 y graficar los pares (x̄ + s q(i) , x(i) ).
Un procedimiento más adecuado consiste en graficar los pares (σ m(i) + μ, x(i) ), donde m(i) = E[Z(i) ]
es el valor esperado del i-ésimo estadı́stico de orden en una muestra de tamaño n de una normal
estándar.
El Q-Q plot no es muy claro con tamaños de muestra conservadores (por ejemplo n ≥ 20), ya que el
gráfico puede mostrar observaciones muy alejadas de una tendencia lineal, aún cuando se sabe que
los datos provienen de una distribución normal.
Ejemplo 4.3.1. Considere los datos sobre las utilidades de 22 compañı́as. En este caso para la
variable X1 que relaciona los ingresos con las deudas. Grafique el respectivo Q-Q plot.
cor(vcuan,mues)
0.9982303
54 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA
mx <- mean(xmue)
sdx <- sqrt(var(xmue))
xn <- (xmue-mx)/sdx
qqnorm(xn)
Ejemplo 4.3.2. Considere las tasas anuales de retorno promedio (incluı́dos los dividendos) de la
industria Dow-Jones para los años 1963 a 1972. Estas tasas fueron multiplpicadas por 100. Los datos
son:
20.6, 18.7, 14.2, −15.7, 19.0, 7.7, −11.6, 8.8, 9.8, 18.2. Construya un Q-Q plot para estas tasas. Comen-
te acerca del supuesto de normalidad.
En SAS
DATA UNO;
INPUT TASA @@;
CARDS;
20.6 18.7 14.2 -15.7 19.0
7.7 -11.6 8.8 9.8 18.2
;
RUN;
PROC IML;
USE UNO;
READ ALL INTO X;
AUX=(1:10)‘;
XAU=DO(-1.8, 1.8, 0.38)‘;
YAU=XAU;
PROB=(AUX-0.5)/10; | Variable TASA
QUANTIL=PROBIT(PROB); |
MAT=QUANTIL||X[,2]||XAU||YAU; | Media Dev tip
CREATE DATOS FROM MAT [COLNAME={QNORM TASAEST XAU YAU}]; |
APPEND FROM MAT; | 8.9700000 12.8111974
QUIT; |
En R
y <- c(20.6, 18.7, 14.2, -15.7, 19.0, 7.7, -11.6, 8.8, 9.8, 18.2)
my <- mean(y)
sdy <- sqrt(var(y))
yn <- (y-my)/sdy
qqnorm(yn)
56 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA
Los gráficos muestran poca evidencia de que las tasas de retorno se comporten de manera normal.
La linealidad del Q-Q plot puede evaluarse al calcular el coeficiente de correlación de los puntos
(q(i) , x(i) ). Este se obtiene como:
n !
"! "
x(j) − x̄ q(j) − q̄
i=1
rQ = / / .
!
n "2 n !
"2
x(j) − x̄ q(j) − q̄
i=1 i=1
rQ < rQ (α) .