Notas Curso Introducci On Al An Alisis Multivariado: P Rof Esor: Ren of Icina: 43 320 Correo: Riral@unal - Edu.co

1
Notas Curso Introducción al Análisis Multivariado

P rof esor : René Iral Palomino
Of icina : 43 − 320
Correo : riral@unal.edu.co
Contenido
1) Introducción
2) Organización y presentación de datos
3) Vectores y Matrices aleatorias
4) Normalidad Multivariada
5) Distribuciones Muestrales
6) Inferencia para Medias
7) Componentes principales
8) Análisis de Cluster y Clasificación
Evaluación
P rueba P1 P2 P3 P4
P orcentaje 25 % 25 % 25 % 25 %
Capı́tulo 1
Introducción
1.1. Motivación
La investigación cientı́fica es un proceso de aprendizaje iterativo. Los objetivos asociados a la expli-
cación de un fenómeno de interés (tales como enfermedades progresivas, comportamiento del clima,
comportamiento de la bolsa de valores, funcionamiento del cerebro, etc.) son probados a través del
análisis u observación de los datos. Dependiento de la complejidad de muchos fenómenos, es nece-
sario recolectar mayor cantidad de información, la cual es presentada a través de diversos tipos de
caracterı́sticas o variables relacionadas con el fenómeno de interés.
Con el fin de obtener información de datos recolectados de esta forma, es pertinente usar métodos
estadı́sticos que tengan en cuenta no solo la posible correlación entre las observaciones sino tambien
el hecho de que están recolectados en forma vectorial. Este tipo de técnicas están basadas principal-
mente en importantes resultados del álgebra lineal y la estadı́stica.
Definición 1.1.1. El conjunto de técnicas y métodos para estudiar y describir vectores de variables
aleatorias posiblemente correlacionadas se conoce con el nombre de Análisis Multivariado.
El análisis multivariado con sus ventajas y limitaciones ha encontrado una ámplia aceptación en
campos tan diversos como la biologı́a, la medicina, la epidemiologı́a, ingenierı́a de control, las cien-
cias sociales, entre otras.
Esto se debe a que en la investigación frecuentemente se trata de cuantificar la forma en que un con-
junto de variables de interés se relacionan con la presencia o ausencia de una caracterı́stica especı́fica
(por ejemplo una enfermedad mental, afección cardiaca, el rendimiento académico, el deterioro en el
tiempo de un material, la afectividad de un método o un medicamento).
El análisis multivarido constituye pues una poderosa y flexible herramienta estadı́stica que, gracias al
vertiginoso avance en las ciencias computacionales, es posible implementar en la práctica con relativa
facilidad, su vigencia es indiscutible, pero al igual que todas las demás técnicas estadı́sticas debe
usarse con precaución y despues de entender bien el problema que se tiene a mano.
2
1.1. MOTIVACIÓN 3
Entre los usos del Análisis Multivariado se encuentran:
1. Modelamiento
2. Reducción de datos.
3. Agrupamiento.
4. Clasificación.
5. Dependencia.
6. Predicción.
7. Inferencia.
Los valores asociados a las caracterı́sticas de interés que asumimos están relacionadas al fenómeno
de estudio, son observadas o medidas en forma diferente. Estas formas se conocen como niveles o
escalas de medición. La mayorı́a de estos valores puede ser situado en alguna de las siguientes escalas:
Nominal, Ordinal, de Intervalo y de Razón. El desarrollo de reglas sistemáticas y de unidades signifi-
cativas de medida para identificar o cuantificar las observaciones empı́ricas es llamado Escalamiento.
La clasificación más común distingue cuatro conjuntos de reglas básicas, las cuales producen cuatro
escalas de medida.
1. Escala Nominal. Implica una relación de identidad entre el sistema de números y el sistema
empı́rico objeto de medición. Los números empleados se consideran etiquetas asignadas a los
objetos con el fin de clasificarlos. Tiene una naturaleza no métrica (por ejemplo, la raza, el
género, credo religioso, tipo de sangre, etc.)
2. Escala Ordinal. Además de la relación de igualdad establecida en la escala nominal, implica

una relación de orden que se presenta tanto en el sistema numérico como en el empı́rico. Los
números que se asignan a los atributos deben preservar el orden de la caracterı́stica que se
mide. El tipo de datos que resulta tiene caracterı́stica no métrica (por ejemplo, categorı́a de un
profesor, calificación en una prueba: a b c d e, estrato socioeconómico, etc.)
3. Escala de Intervalo Además de la relación de igualdad de las escalas anteriores, se caracteriza

porque la diferencia entre los números corresponden a la diferencia entre la propiedad medida
sobre los objetos y por lo tanto tienen una naturaleza métrica. En este tipo de escalas es
necesario precisar un origen o punto çerorespecto al cual la medida tiene sentido. (por ejemplo
Temperatura, altura, tiempo de duración, etc.)
4. De razón Similar a la escala anterior, solo que implica un punto de origen fijo o natural: el
cero absoluto. Tambien de naturaleza métrica (por ejemplo, el peso, la talla, la edad, etc.)
4 CAPÍTULO 1. INTRODUCCIÓN
1.2. Repaso de Álgebra Lineal

1. Un arreglo de n números reales a1 , . . . , an se llama vector y se denota
⎛ ⎞
a1
⎜ ⎟
a = ⎝ ... ⎠ o a = (a1 , . . . , an ) .
an
Es usual indicar que el vector a es un vector en Rn , o equivalentemente a ∈ Rn .
2. El vector unidad o vector de unos de orden n se define como:
1n = (1, . . . , 1) .

n componentes
3. Sean a y b vectores en Rn tales que a = (a1 , . . . , an ) y b = (b1 , . . . , bn ). El producto

interno entre a y b, denotado a • b, se define como:

n
a • b = a b = a1 b1 + . . . + an bn = ai b i .
i=1
4. Sea a un vector en Rn . La Norma del vector a, la cual se denota a, se define como:
√
a = a a = a21 + . . . + a2n .
5. La multiplicación de un vector por un escalar cambia su norma. En otras palabras, si a es un

vector en Rn y c una constante real:
c a = |c| a .
Si |c| > 1, a se expande. Si 0 < |c| < 1, a se contrae.
6. Sean a = (a1 , . . . , an ) y b = (b1 , . . . , bn ) dos vectores en Rn y c y d dos constantes reales.

Entonces ⎛ ⎞
c a1 , +, d b1
⎜ .. ⎟
ca + db = ⎝ . ⎠ .
c an + d bn
7. Sean a y b dos vectores en Rn . El ángulo θ entre estos vectores está dado por:
a b
cos θ = .
a b
8. Sean a y b dos vectores en Rn . Se dice que a y b son Ortogonales si a b = 0.

1.2. REPASO DE ÁLGEBRA LINEAL 5
9. Una matrı́z se puede definir como un arreglo rectangular de números en filas y columnas.
Usualmente se usan letras mayúsculas para nombrar una matriz con un subı́ndice que indica
la dimensión en filas y columnas. Por ejemplo, una matrı́z A de n filas y p columnas, se denota
An×p , y está dada por: ⎛ ⎞
a11 · · · a1p
⎜ a21 · · · a2p ⎟
⎜ ⎟
A = ⎜ .. .. ⎟
⎝ . . ⎠
an1 · · · anp
Es usual utilizar la notación A = [(aij )]n×p o An×p = [(aij )], para una matrı́z A arbitraria de
orden n × p.
10. Una matrı́z An×p se dice Cuadrada si n = p (cuadrada de orden n). Un caso especial de
matrices cuadradas es la matrı́z Identidad. La matrı́z identidad de orden n se denota In y está
dada por: ⎛ ⎞
1 0
⎜ ⎟
In = ⎝ . . . ⎠
0 1
11. Sea A una matrı́z cuadrada de orden n. Si todas las componentes de la matrı́z A son iguales a
uno, obtenemos la matrı́z de unos, la cual se denota Jn .
12. Una matrı́z cuadrada A de orden n se dice Diagonal si es de la forma:
⎛ ⎞
a1 0
⎜ ... ⎟
An×n = ⎝ ⎠
0 an
13. Sea A = [(aij )] una matriz Cuadrada de orden n. Se puede construir una matrı́z diagonal con
los elementos de la diagonal de A. Dicha matrı́z es notada Diag(A) y está dada por:
⎛ ⎞
a11 0
⎜ ... ⎟
Diag(A) = ⎝ ⎠
0 ann
14. Sean A = [(aij )]n× p y B = [(bij )]n× p matrices. La suma o Resta de las matrices A y B es una
nueva matriz C, la cual está dada por:
⎛ ⎞
a11 ± b11 · · · a1p ± b1p
⎜ .. .. ⎟
C = A ± B = [(aij ± bij )]n×p = ⎝ . . ⎠
an1 ± bn1 · · · anp ± bnp
15. Sean A = [(aij )]n× p y B = [(bij )]p× k matrices. El producto de las matrices A y B es una nueva
matriz C la cual está dada por: C = A B = [(cij )]n×k , donde la entrada cij de C está dada por:
p

cij = ai1 b1j + · · · + aip bjp = ail blj .
l=1
6 CAPÍTULO 1. INTRODUCCIÓN
Observe que para que el producto AB sea posible, el número de columnas de A debe ser igual
al número de filas de B. Si A y B son matrices cuadradas de orden n ambos productos A B y
B A pueden realizarse, pero en general AB = BA.
16. Sea A = [(aij )] una matriz de orden n × p. La Transpuesta de A es una matrı́z de orden p × n
la cual se denota AT o A y está dada por A = [(aji )] (las filas de A son las columnas de A ).
Si A = A diremos que A es Simétrica.
17. Sea A una matrı́z de orden n × p. Si existe una matriz B de orden p × n tal que A B = In , se
dice que B es la Inversa a derecha de la matrı́z A. Análogamente, si existe una matriz C de
orden p × n tal que C A = Ip , se dice C es la Inversa a izquierda de la matrı́z A.
18. Sea A una matrı́z cuadrada de orden n. Si existe una matrı́z cuadrada B de orden n tal que
A B = B A = In , se dice que B es la Inversa de A, la cual se denota A−1 . Esta matrı́z A−1
cumple que (A )−1 = (A−1 ) .
19. Una matriz cuadrada T de orden n se dice Ortogonal si T T = T T = In es decir T = T −1 ;

esto implica que las columnas de T son perpendiculares y de norma igual a uno.
20. Sean X1 , . . . , XK k vectores en Rn . Se dice que estos k vectores son Linealmente Indepen-
dientes si el sistema de ecuaciones c1 X1 +· · ·+ck Xk = 0 tiene única solución c1 = · · · = ck = 0,
para ci ∈ R, i = 1, 2, · · · , k. De otra manera, Si denotamos X la matriz cuyas columnas son
X1 , · · · , XK , y haciendo c = (c1 , · · · , ck ), se dice que los k vectores X1 , . . . , XK son lineal-
mente independientes, si el sistema X c = 0 tiene solución única c = 0, donde 0 = (0, · · · , 0).
21. Sea A una matrı́z cuadrada de orden n. Se dice que λ es un valor propio de A asociado al vector
propio x, si A x = λ x. Al dividir el vector propio x por su norma obtenemos un vector, el cual
se denota e, es decir, e = √ x .
x
22. Sea A = [(aij )] una matrı́z cuadrada de orden n. El determinante de A, el cual se denota |A|,
se obtiene como:
n
|A| = aij |Aij | (−1)i+j ;
j=1
donde Aij es la matrı́z cuadrada de orden (n − 1) que se obtiene al eliminar de A la fila i y la

columna j. Si k = 1, |A| = a11 .
23. Sean A y B matrices cuadradas de orden n y c ∈ R. Entonces:
|A| = |A |.
|A B| = |A| |B|.
|c A| = cn |A|, donde c ∈ R.
n
Si λ1 , · · · , λn son los n valores propios de A, entonces |A| = i=1 λi .
A es invertible, entonces |A| = 0; esto equivale a decir que todos los valores propios de A
son diferentes de cero.
1
si A−1 existe, entonces |A−1 | = .
|A|
1.2. REPASO DE ÁLGEBRA LINEAL 7
Si A es simétrica, todos sus valores propios son reales.

Si A = [(aij )] es una matrı́z cuadrada de orden 2 invertible, entonces

−1 1 a22 −a12
A = .
|A| −a21 a11
24. Sea A = [(aij )] una matrı́z cuadrada de orden n. La traza de A se denota tr(A) y se obtiene
como:
n
tr(A) = aii .
i=1
25. Sean A y B matrices cuadradas de orden n. Entonces:

tr(c A) = c tr(A).
tr(A ± B) = tr(A) ± tr(B).
tr(A B) = tr(B A).
n
tr(A) = λi , donde λ1 , · · · , λn son los n valores propios de A.
i=1
Si B −1 existe, entonces tr(B −1 A B) = tr(A).
n n
tr(A A ) = a2ij .
i=1 j=1
26. Sea A una matrı́z simétrica de orden n. Entonces:

n
A= λ1 e1 e1 + ··· + λn en en = λi ei ei ;
i=1
donde ei es el vector propio normalizado de A asociado al valor propio λi , para i = 1, . . . , n.

Este resultado se conoce como Descomposición Espectral de la Matrı́z A.
27. Sea A una matrı́z simétrica de orden n. Se dice que A es Semidefinida positiva si para todo
vector x en Rn : x A x ≥ 0. Si x A x > 0, para todo x en Rn no nulo, se dice que A es Definida
Positiva (por notación se escribe A es d.p.).
28. Si una matrı́z A es d.p., todos sus valores propios son positivos, lo que equivale a decir que su
determinante es diferente de cero, lo que equivale a decir que tiene inversa.
29. Sea A una matriz cuadrada de orden n d.p. Por el teorema de descomposición espectral se tiene
que
n
A= λi ei ei .
i=1
Sea P la matrı́z de vectores propios normalizados, es decir, P = [e1 , · · · , en ], entonces
A = P Λ P , donde P P = P P = In y Λ es una matrı́z diagonal que contiene en su diagonal
los valores propios de A. Como A es invertible A−1 = P Λ−1 P . La Raı́z Cuadrada de la
1
matrı́z A, la cual se denota A 2 , se obtiene como:
1 1
A 2 = P Λ 2 P ,
1
donde Λ 2 es una matrı́z diagonal que contiene las raı́ces cuadradas de los valores propios de A.
Capı́tulo 2
Organización y presentación de datos
2.1. Organización de datos
En general, los datos multivariados aparecen cuando se recolectan un número p ≥ 2 de variables. Los
valores de estas variables se miden u observan para todos los sujetos o unidades experimentales. Por
notación, De ahora en adelante el valor de la k-ésima variable que se registró en el j-ésimo sujeto, se
denotará xjk . De esta manera, si se tienen n sujetos y p variables, esta información se puede organizar
en una matriz que se conoce como matriz de datos:
⎛ ⎞
x11 x12 · · · x1p
⎜ .. .. ⎟ .
Xn× p =⎝ . . ⎠
x1n xn2 · · · xnp
Ejemplo 2.1.1. Se realizó una encuesta a 1000 estudiantes de cierta universidad. Se recopilo in-
formación acerca del Valor de la Matrı́cula, el Promedio obtenido en el semestre anterior, las horas
dedicadas semalamente a estudiar, el Estrato socioeconómico, si el estudiante trabaja o no y la fa-
cultad a la cual pertenece.
La matriz de datos X esta dada por:

⎛ ⎞
602089 3.2 23
4 SI CIEN CIAS
⎜645860 3.3 32
4 SI M IN AS ⎟
⎜ ⎟
⎜230028 3.5 4 N O AGRON OM IA⎟
28
⎜ ⎟
⎜560515 4.2 24
3 NO M IN AS ⎟
⎜ ⎟
⎜536309 3.2 28
3 SI CIEN CIAS ⎟
⎜ ⎟
X = ⎜673112 3.3 33
4 NO M IN AS ⎟
⎜ ⎟
⎜ .. .. ..
.. .. .. ⎟
⎜ . . .
. . . ⎟
⎜ ⎟
⎜663143 4.0 44 3 N O M IN AS ⎟
⎜ ⎟
⎝505265 3.0 41 3 N O M IN AS ⎠
589762 3.9 38 3 SI M IN AS
8
2.2. ESTADÍSTICOS DESCRIPTIVOS (O DE RESUMEN) 9
2.2. Estadı́sticos descriptivos (o de resumen)

Debido a que las bases de datos son extensas, es dificil capturar visualmente información importante.
Es por esto que se hace necesario usar medidas de resumen que den una idea de la localización, la
variación y la asociación lineal de las distintas variables bajo estudio.
Para definir algunas de las medidas básicas de tendencia, variabilidad y asociación entre variables,
se asume inicialmente que las carácterı́sticas de interés son obtenidas de los sujetos u objetos prin-
cipalmente, a través de un proceso de medición. Suponga que p caracterı́sticas son medidas sobre
n sujetos u objetos. La información resultante es resumida en una matrı́z (usualmente denominada
Matrı́z de Datos) del tipo relacionado anteriormente.
Definición 2.2.1. Para j fijo, con j = 1, 2, · · · , p, se tiene un conjunto de n mediciones x1j , x2j , · · · , xnj
(correspondientes a n sujetos u objetos). La Media muestral de estas mediciones se define como:
1
n
x̄j = xkj
n k=1
Definición 2.2.2. Para j fijo, con j = 1, 2, · · · , p, se tiene un conjunto de n mediciones (corres-

pondientes a los n sujetos u objetos): x1j , x2j , · · · , xnj . la Varianza muestral de estas mediciones se
define como:
1
n
2
sj,n = (xkj − x̄j )2
n k=1
ó
1
n
s2j = (xkj − x̄j )2
n − 1 k=1
Por conveniencia, la varianza muestra de la variable j se denota s2j = sjj , j = 1, . . . , p. La raı́z

cuadrada de s2j , sj , se conoce como Desviación estandar muestral (está en las mismas unidades
en las cuales fueron tomadas las observaciones.)
Definición 2.2.3. Para i = j, con i, j = 1, 2, · · · , p, se define la Covarianza muestral entre las
variables xi y xj como:
1
n
sij = (xki − x̄i )(xkj − x̄j ) ; para i, j = 1, . . . , p
n k=1
Nota: Si i = j, entonces sii = s2i , la varianza muestral de la variable xi .
Definición 2.2.4. Para i = j, con i, j = 1, 2, · · · , p, se define la Correlación muestral entre las

variables xi y xj como:
sij
ρij = √ √ ; para i, j = 1, . . . , p
sii sjj
Propiedades.
10 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS
ρij no depende de las unidades de medida.
ρij = ρji .
ρij es la covarianza muestral de las observaciones estandarizadas.
−1 ≤ ρij ≤ 1.
Si ρij > 0, se tiene una asociación lineal positiva.
Los valores de ρij permanecen invariables si las medidas de la i-ésima variable se cambian por
yki = a xki + b y los de la j-ésima variable se cambian por ykj = c xkj + d, siempre y cuando a
y c tengan el mismo signo, con a, c ∈ R.
Ejemplo 2.2.1. Con los datos del ejemplo 1, usaremos una matriz de datos que contenga información
solo de las variables Valor de la Matrı́cula, el Promedio obtenido en el semestre anterior y las horas
dedicadas semanalmente a estudiar.
Usando el paquete R se obtienen los siguientes resultados. Usando el paquete R, se tienen los siguien-
tes resultados (los datos de interés están en el archivo estud.txt).
> xm <-read.table(file.choose(), header=T)
> dim(xm)
[1] 1000 3
> xm[1:3,]
VMATRI PROM HORAS

1 688.091 4.1 22
2 398.030 3.6 25
3 448.689 3.6 23
> apply(xm,2,"mean")
VMATRI PROM HORAS
644.2483 3.5008 24.0980
> numSummary(xm)
mean sd IQR 0% 25% 50% 75% 100% n

VMATRI 644.2483 162.6673822 226.6377 133.508 529.6755 645.9015 756.3133 1190.64 1000
PROM 3.5008 0.3819755 0.6000 2.200 3.2000 3.5000 3.8000 4.50 1000
HORAS 24.0980 3.8417646 5.0000 13.000 22.0000 24.0000 27.0000 37.00 1000
> numSummary(xm, statistics=c("mean", "sd", "IQR","quantiles", "skewness", "kurtosis"),

quantiles=c(0,.25,.5,.75,1), type="2")
mean sd IQR skewness kurtosis 0% 25% 50% 75% 100% n

VMATRI 644.2483 162.6673822 226.6377 -0.07305390 0.015568300 133.508 529.6755 645.9015 756.3133 1190.64 1000
PROM 3.5008 0.3819755 0.6000 -0.04146165 -0.204412124 2.200 3.2000 3.5000 3.8000 4.50 1000
HORAS 24.0980 3.8417646 5.0000 0.05409766 -0.004988634 13.000 22.0000 24.0000 27.0000 37.00 1000
> var(xm)
VMATRI PROM HORAS

VMATRI 26460.677221 1.95929612 -8.36841193
PROM 1.959296 0.14590527 0.06158318
HORAS -8.368412 0.06158318 14.75915516
> cor(xm, use="complete", method="pearson")
VMATRI PROM HORAS

VMATRI 1.00000000 0.03153291 -0.01339096
PROM 0.03153291 1.00000000 0.04196584
HORAS -0.01339096 0.04196584 1.00000000
2.3. FORMA MATRICIAL DE LOS ESTADÍSTICOS DE RESUMEN 11
> cor(xm, use="complete", method="spearman")
VMATRI PROM HORAS

VMATRI 1.000000000 0.02662297 0.005603378
PROM 0.026622965 1.00000000 0.049251733
HORAS 0.005603378 0.04925173 1.000000000
> cor(xm, use="complete", method="kendall")
VMATRI PROM HORAS

VMATRI 1.000000000 0.01809467 0.003882973
PROM 0.018094667 1.00000000 0.035215698
HORAS 0.003882973 0.03521570 1.000000000
> partial.cor(xm, use="complete")
Partial correlations:
VMATRI PROM HORAS
VMATRI 0.00000 0.03213 -0.01473
PROM 0.03213 0.00000 0.04241
HORAS -0.01473 0.04241 0.00000
Number of observations: 1000
2.3. Forma matricial de los estadı́sticos de resumen

Considere nuevamente una estructura de datos presentada en forma matricial, donde las columnas
representan las variables y la filas los items objeto de las mediciones (sujetos u objetos).
Definición 2.3.1. El vector de medias muestrales está dado por:
x̄ = (x̄1 , · · · , x̄p ) .
Definición 2.3.2. La matriz de varianzas y covarianzas muestrales está dada por:

⎛ ⎞
s11 s12 · · · s1p
⎜s21 s22 · · · s2p ⎟
⎜ ⎟
Sn = ⎜ .. .. ⎟ .
⎝ . . ⎠
sp1 sp2 · · · spp
Definición 2.3.3. La matriz de correlaciones muestrales está dada por:

⎛ ⎞
1 r12 · · · r1p
⎜ .. ⎟ .
R = ⎝ ... . ⎠
rp1 rp2 · · · 1
Ejemplo 2.3.1. Para el ejemplo anterior, la forma matricial de los estadı́sticos descriptivos es la
siguiente:
⎛ ⎞
644.248
x̄ = ⎝ 3.5 ⎠
24.1
⎛ ⎞
26460.67008 1.95931 −8.36819
Sn = ⎝ 1.95931 0.14591 0.06158 ⎠
−8.36819 0.06158 14.75916
⎛ ⎞
1 0.03153 −0.01339
R = ⎝ 0.03153 1 0.04197 ⎠ .
−0.01339 0.04197 1
2.4. Representaciones Gráficas

Para el trabajo que se realizará de manera posterior y en muchos de los temas a tratar en el curso, se
usará la información relacionada con un estudio sobre Parámetros Antropométricos de la Población
Laboral Colombiana 1995. La base con la cual se trabajará tiene información de 2100 trabajadores,
de ambos sexos, de cuatro grupos etáreos, en doce ciudades, y en diferentes sectores de la actividad
económica. Los registros se refieren a la medición de 69 dimensiones corporales directas, agrupadas
en alturas en posición erecta, en posición sentado, pliegues cutáneos, perı́metros, anchuras y larguras
y la construcción de tres ( 3 ) ı́ndices. Las variables fueron codificadas como (ver figura 2.1:
Figura 2.1: Variables Acopla

2.4. REPRESENTACIONES GRÁFICAS 13
Ejemplo 2.4.1. Usando los datos del Ejemplo 2.1.1., sobre los estudiantes, relacionados con Va-
lor de Matrı́cula, Promedio semestre anterior, Horas dedicadas semanalmente a estudiar y estrato
socioeconómico.
Histogramas Histogramas para las variables VMATRI, PROM y HORAS y un diagrama de

barras para la variable ESTRATO. Algunos comandos del paquete R.
a=table(xm[,4])/1000
a
1 2 3 4 5 6
0.076 0.299 0.389 0.106 0.084 0.046
par(mfrow=c(2,2), new=T)
hist(xm[,1], col=’blue’, main=’Histograma Matricula’, xlab="V. Matricula")
hist(xm[,2], col=’cyan’, main=’Histograma Promedios’, xlab="Promedio")
hist(xm[,3], col=’green’, main=’Histograma Horas’, xlab="Horas")
barplot(table(xm[,4])/1000, ylim=c(0,0.45), xlab="Estrato", main=’Diagrama Barras Estrato’, col=c(’blue’,’red’,’yellow’,’gre
Los gráficos resultantes se muestran en la figura 2.2.
Figura 2.2: Histogramas y diagrama de barras
Box Plot
> par(mfrow=c(2,3), new=T)

> boxplot(xm[,1], xlab="V. Matricula")
> boxplot(xm[,2], xlab="Promedio")
> boxplot(xm[,3], xlab="Horas")
> boxplot(xm[,1]~ xm[,4], xlab="Estrato", main="Matricula por Estrato")
> boxplot(xm[,2]~ xm[,4], xlab="Estrato", main="Promedio por Estrato")
> boxplot(xm[,3]~ xm[,4], xlab="Estrato", main="Horas por Estrato")

Figura 2.3: Box Plots
Gráficos bidimensionales y tridimensionales Diagramas de dispersión. Los siguientes coman-

dos permiten obtener gráficos de dispersión por pares y para las tres variables. Los gráficos
resultantes se muestran en la figura 2.4
vg1 <- layout(rbind(c(1,1,2,2), c(0,3,3,0)))

plot(xm[,2],xm[,1], xlab="Promedio", ylab="Matrı́cula", type="p", pch=20)
plot(xm[,3],xm[,1], xlab="Horas", ylab="Matrı́cula", type="p", pch=20)
plot(xm[,3],xm[,2], xlab="Horas", ylab="Promedio", type="p", pch=20)
pairs(xm[,c(1,2,3)], main="Matrı́z de Dispersión", labels=c("Matricula","Promedio", "Horas"), pch=20)
Gráficos tridimensionales. Usando R se elabora un grafico de dispersión tridimensional, suando

los datos de los estudiantes. ver figura 2.5
library(rgl)
plot3d(xm[,1],xm[,3],xm[,2])
play3d(spin3d(plot3d(xm[,1],xm[,3],xm[,2])), duration=10)
Gráfico de superficies y contornos. En la figura 2.7
x=seq(-3,3,length=100)
Figura 2.4: Gráficos de Dispersión y Matriz de Dispersión
y=seq(-3,3,length=100)
supe=function(x,y) x^2+y^2+x*y+1
z=outer(x, y, supe)
persp(x,y,z)
persp(x,y,z, phi = 30)
persp(x,y,z,theta = 30)
Figura 2.5: Graficos de dispersión Tridimensional
par(mfrow=c(1,2))
persp(x,y,z,theta = 25, phi=-10,col="cyan")
image(x,y,z)
contour(x,y,z,add=T, col="black")
x=seq(-4,4,length=100)
y=seq(-9,9,length=100)
nor_biv <- function(x,y){
p=0.1
mu1=0
mu2=0
sig1=1
sig2=3
au=2*3.1416*sig1*sig2*(1-p^{2})^{0.5}
(1/au)*exp(-(1/(2*(1-p^{2})))*(((x-mu1)/sig1)^{2}-2*p*((x-mu1)/sig1)*((y-mu2)/sig2)+((y-mu2)/sig2)^{2}))
}
z=outer(x, y, nor_biv)
persp(x,y,z,theta = 25, phi=15)
Los respectivos gráficos de una normal Bivariada se muestran en la figura 2.7.
Gráficos Múltiples
De estrellas Los siguientes comandos en R permiten obtener un gráfico de estrellas. Para
simplificarlo, se usaron solo las 11 primeras observaciones.
xm <- xm[1:11,c(1,2,3)]
colnames <-c("Matr","Prom","Horas")
stars(xm, key.labels=abbreviate(colnames), key.loc=c(8,2),
main="Grafico de Estrellas para Matricula, Promedio y Horas")
La gráfica resultante se muestra en la figura 2.8

Figura 2.6: Superficies y contornos
Figura 2.7: Normal Bivariada
stars(xm, key.labels=abbreviate(colnames), key.loc=c(8,2),

main="Grafico de Estrellas para Matricula, Promedio y Horas",
draw.segments=T)
La gráfica resultante se muestra en la figura 2.9

Caras de Chernoff
Figura 2.8: Grafico de Estrellas
Figura 2.9: Grafico de Segmentos

Podemos realizar este tipo de gráficos usando el paquete aplpack.
Para este paquete la función usada es faces
faces(xm[1:16,c(1,2,3)], plot.faces=T, fill=T, face.type=0)

Los gráficos obtenidos se muestran en la figura 2.10
Figura 2.10: Caras de Chernoff
Explicación de los parámetros. 1: altura de la cara, 2: de ancho de la cara, 3: forma de la cara,

4: altura de la boca, 5: ancho de la boca, 6: curva de la sonrisa, 7: altura de los ojos, 8: ancho
de los ojos, 9: altura del pelo, 10: ancho del pelo, 11: estilo del cabello, 12: altura de la nariz,
13: ancho de la nariz, 14: ancho de las orejas, 15: altura de las orejas.
Cluster
Se tiene información sobre las utilidades de 22 compañı́as públicas en estados Unidos en 1975.
Nueve variables son registradas: X1 : ingreso/deduda, X2 : Tasa de retorno de capital, X3 : Costo
per-cápita en el lugar, X4 : Factor de carga anual, X5 : Crecimiento per-cápitade la demanda
de 1974 a 1975, X6 : Ventas (uso per-cápita de KWH anual, X7 : Porcentaje nuclear, X8 : Costo
total de combustible (centavos por KWH) y Lugar. Los datos se muestran a continuación.
X1 X2 X3 X4 X5 X6 X7 X8 Lugar
1.06 9.2 151 54.4 1.6 9077 0.0 0.628 Arizona
0.89 10.3 202 57.9 2.2 5088 25.3 1.555 Boston
1.43 15.4 113 53.0 3.4 9212 0.0 1.058 Central
1.02 11.2 168 56.0 0.3 6423 34.3 0.700 Common
1.49 8.8 192 51.2 1.0 3300 15.6 2.044 Consolid
1.32 13.5 111 60.0 -2.2 11127 22.5 1.241 Florida
1.22 12.2 175 67.6 2.2 7642 0.0 1.652 Hawaiian
1.10 9.2 245 57.0 3.3 13082 0.0 0.309 Idaho
1.34 13.0 168 60.4 7.2 8406 0.0 0.862 Kentucky
1.12 12.4 197 53.0 2.7 6455 39.2 0.623 Madison
0.75 7.5 173 51.5 6.5 17441 0.0 0.768 Nevada
1.13 10.9 178 62.0 3.7 6154 0.0 1.897 NewEngla
1.15 12.7 199 53.7 6.4 7179 50.2 0.527 Northern
1.09 12.0 96 49.8 1.4 9673 0.0 0.588 Oklahoma
0.96 7.6 164 62.2 -0.1 6468 0.9 1.400 Pacific
1.16 9.9 252 56.0 9.2 15991 0.0 0.620 Puget
0.76 6.4 136 61.9 9.0 5714 8.3 1.920 SanDiego
1.05 12.6 150 56.7 2.7 10140 0.0 1.108 Southern
1.16 11.7 104 54.0 -2.1 13507 0.0 0.636 Texas
1.20 11.8 148 59.9 3.5 7287 41.1 0.702 Wisconsi
1.04 8.6 204 61.0 3.5 6650 0.0 2.116 United
1.07 9.3 174 54.3 5.9 10093 26.6 1.306 Virginia
Agrupando las observaciones
com <- compa[,1:8]

d <- dist(com, method = "euclidean")
hc <- hclust(d,method="complete")
plot(hc, xlab="Subjects or Objects", main="Clusters")
El gráfico resultante se muestra en la figura 2.11
Cargar paquete ggplot2 y luego paquete factoextra
com_esc <- scale(com)

km.res <- kmeans(com_esc, 3, nstart = 5)
fviz_cluster(km.res, com[, -3], ellipse.type = "norm")
El gráfico resultante se muestra en la figura 2.12

Gráficos datos panel. Se muestra un ejemplo en la figura 2.13.
Otro gráfico con ajuste lineal se muestra en la figura 2.14
Figura 2.11: Cluster de las compañias usando las 8 variables
Figura 2.12: 3 Clusters para compañias

Figura 2.13: GGplot2 Estimacion de λ12
Figura 2.14: Gráfico de dispersión y estimación de supérficie

Capı́tulo 3
Vectores y matrices aleatorias
Definición 3.0.1. Un vector aleatorio es aquel cuyas componentes son variables aleatorias.
Definición 3.0.2. Una matriz aleatoria es aquella cuyas componentes son variables aleatorias.
Definición 3.0.3. El valor esperado de una matriz (o un vector), es una matriz cuyos elementos
son los valores esperados de cada entrada de la matriz. En otras palabras, si X = [(Xij )]n×p es
una matrı́z aleatoria, entonces:
⎛ ⎞
E(X11 ) · · · E(X1p )
⎜ .. ⎟
E(X) = ⎝ ... . ⎠
E(Xn1 ) · · · E(Xnp )
Aquı́,
xij f (xij ) dxij , Si Xij es continua
E(Xij ) =
xij f (xij ) , Si Xij no es continua
3.0.1. Propiedades del Valor esperado

Sean X y Y matrices aleatorias de igual dimensión y A y B matrices de constantes de dimen-
siones adecuadas. Entonces:
• E(X + Y) = E(X) + E(Y)
• E(A X B) = A E(X) B
Suponga que X = (X1 , · · · , Xp ) es un vector aleatorio. Diremos que X1 , · · · , Xp son variables
aleatorias independientes si:
F (x1 , · · · , xp ) = F1 (x1 ) · · · Fp (xp ), ∀(x1 , · · · , xp ) ∈ Rp
donde
F (x1 , · · · , xp ) = P (X1 ≤ x1 , · · · , Xp ≤ xp )
es la distribución conjunta acumulada de X1 , · · · , Xp .
23
24 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS
Definición 3.0.4. Sea X = (X1 , · · · , Xp ) un vector aleatorio. El vector de medias μ y la

matrı́z de varianzas y covarianzas Σ del vector X están dados por:
⎛ ⎞
μ1
⎜ .. ⎟
μ = E(x) = ⎝ . ⎠ y
μp
⎛ ⎞
σ11 . . . σ1p
⎜ ⎟
Σ = E [(X − μ)(X − μ) ] = ⎝ ... . . . ... ⎠;
σp1 . . . σpp
donde
σij = E(Xi − μi )(Xj − μj ) . Por notación, σi2 = σii . La matrı́z Σ es simétrica.
Definición 3.0.5. La matriz de correlaciones poblacionales del vector aleatorio X, se denota ρ y

está dada por:
⎛ ⎞
1 ρ12 . . . ... ρ1p
⎜ .. ... .. ⎟
⎜ . . ⎟
⎜ ⎟
ρ=⎜
⎜ 1
..
.
..
. ⎟,
⎟
⎜ .. . . . .. ⎟
⎝ . . ⎠
ρ1p ρ2p . . . ... 1
donde
σij
ρij = √ √
σii σjj
⎛√ ⎞
σ11 0
⎜ .. ⎟
Haciendo V 1/2 = ⎝ . ⎠, tenemos que:
√
0 σpp
V 1/2 ρV 1/2 = Σ y ρ = (V 1/2 )−1 Σ(V 1/2 )−1
3.1. Matrices particionadas

Sea X un vector p-dimensional (que puede corresponder a p caracterı́sticas). Suponga que estas p
caracteristicas se particionan en dos grupos de tamaños q y p − q respectivamente. Por ejemplo,
3.1. MATRICES PARTICIONADAS 25
⎡ ⎤
X1
⎢ .. ⎥
⎢ . ⎥ ⎛ ⎞
⎢ ⎥
⎢ Xq ⎥ X(1)
⎢ ⎥
X = ⎢ − − − ⎥ = ⎝− − − ⎠ .
⎢ ⎥
⎢ Xq+1 ⎥ X(2)
⎢ . ⎥
⎣ .. ⎦
Xp
Entonces:
⎛ ⎞
μ1
⎜ .. ⎟
⎜ . ⎟ ⎛ ⎞
⎜ ⎟
⎜ μq ⎟ μ(1)
⎜ ⎟
μ = E(X) = ⎜− − −⎟ = ⎝− − −⎠ .
⎜ ⎟
⎜ μq+1 ⎟ μ(2)
⎜ . ⎟
⎝ .. ⎠
μp
Ahora,
⎛ ⎞
X 1 − μ1
⎜X2 − μ2 ⎟
⎜ ⎟
(X(1) − μ(1) )(X(2) − μ(2) ) = ⎜ .. ⎟ (Xq+1 − μq+1 , · · · , Xp − μp )
⎝ . ⎠
X q − μq
⎛ ⎞
(X1 − μ1 )(Xq+1 − μq+1 ) · · · (X1 − μ1 )(Xp − μp )
⎜ .. .. ⎟
=⎝ . . ⎠
(Xq − μq )(Xq+1 − μq+1 ) · · · (Xq − μ) (Xp − μp )
Ası́,
⎛ ⎞
σ1,q+1 σ1,q+2 · · · σ1,p
(1) (1) (2) (2) ⎜ .. .. ⎟ = Σ
E[(X − μ )(X − μ )] = ⎝ . . ⎠ 12
σq,q+1 ··· ··· σq,p
Como,
⎡⎛ ⎞ ⎛ (1) ⎞⎤ ⎡⎛ (1) ⎞ ⎛ (1) ⎞⎤

X(1) μ X μ

(X − μ)(X − μ) = ⎣ ⎝ −−− − ⎠ ⎝ −−− ⎠ ⎦ ⎣ ⎝ −−− − ⎠ ⎝ − − −⎠⎦
(2) (2) (2)
X μ X μ(2)

(X(1) − μ(1) )(X(1) − μ(1) ) (X(1) − μ(1) )(X(2) − μ(2) )
=
(X(2) − μ(2) )(X(1) − μ(1) ) (X(2) − μ(2) )(X(2) − μ(2) )

Σ11 Σ12

⇒ Σ = E[(X − μ)(X − μ) ] =
Σ21 Σ22
donde,
⎧
⎪
⎨Σ11 es de orden q × q
Σ12 = Σ21 es de orden q × (p − q)
⎪
⎩
Σ22 es de orden (p − q) × (p − q)
3.2. Media y Varianza de combinaciones lineales

Sean X1 y X2 variables aleatorias y c ∈ R. Entonces:
E(cX1 ) = c E(X1 ).
E(a X1 + b X2 ) = a E(X1 ) + b E(X2 ).
V (c X1 ) = c2 V (X1 ).
Cov(a X1 , b X2 ) = a b Cov(X1 , X2 ) = a b σ12 .
V (a X1 + b X2 ) = a2 V (X1 ) + b2 V (X2 ) + 2 a b Cov(X1 , X2 )
= a2 σ11 + b2 σ22 + 2a b σ12
Note que si c = (a, b),

! " X1
a X1 + b X2 = a b = c X
X2
De manera similar,

μ1 ! "
E(a X1 + b X2 ) = aμ1 + bμ2 = a b = c μ
μ2

σ11 σ12
Si Σ = , entonces,
σ12 σ22
3.2. MEDIA Y VARIANZA DE COMBINACIONES LINEALES 27

!
" σ11 σ12 a
c Σc= a b
σ12 σ22 b
= a2 σ11 + b2 σ22 + 2 a b σ12
= V (c X) = V (aX1 + bX2 )
Si c = (c1 , · · · , cp ) y X es un vector aleatorio en Rp , entonces:
E(c X) = c μ y V ar(c X) = c Σ c
donde μ = E(X) y Σ = Cov(X) .
En general, sea C = [(cij )]q×p una matriz de constantes reales y X un vector aleatorio en Rp . Defina
Z = C X, entonces
E(Z) = E(CX) = C μ y Cov(CX) = C Σ C
donde, μ = E(X) y Σ = Cov(X).
2
Ejemplo 3.2.1. Sea X = (X1 ,X2 ) un vector aleatorio en R con media μX = (μ1 , μ2 ) y matrı́z
σ11 σ12
de covarianzas ΣX = . Sea Z = (Z1 , Z2 ) un vector aleatorio, cuyas componentes están
σ12 σ22
dadas por: Z1 = X1 − X2 y Z2 = X1 + X2 . Calcule la media y la matrı́z de covarianzas del vector Z.
Solución. El vector Z puede escribirse como:

Z1 1 −1 X1
Z= = =CX
Z2 1 1 X2
Usando el resultado anterior, se tiene que:

1 −1 μ1 μ1 − μ2
μZ = E(CX) = C E(X) = C μX = =
1 1 μ2 μ1 + μ2
y

1 −1 σ11 σ12 1 −1
ΣZ = C ΣX C =
1 1 σ12 σ22 1 1

σ11 − σ12 σ12 − σ22 1 −1
=
σ11 + σ12 σ12 + σ22 1 1

σ11 − σ12 − σ12 + σ22 σ11 − σ12 + σ12 − σ22
=
σ11 + σ12 − σ12 − σ22 σ11 + σ12 + σ12 + σ12

σ11 − 2σ12 + σ22 σ11 − σ22
=
σ11 − σ22 σ11 + 2σ12 + σ22
3.3. Particionamiento del vector de medias y de la matrı́z

de covarianzas muestral
Sea x̄ = (x̄1 , . . . , x̄p ) el vector de medias muestrales, construido a partir de n observaciones en p
variables y la matrı́z de covarianzas muestral Sn de orden p, definida anteriormente y expresada
como:
⎛ ⎞
s11 · · · s1p
⎜ ⎟
Sn = ⎝ ... ⎠
s1p · · · spp
⎛ ⎞
1
n
1

n
⎜ n
(xj1 − x̄1 )2 ··· n
(xj1 − x̄1 )(xjp − x̄p )⎟
⎜ j=1 j=1 ⎟
⎜ .. .. ⎟
= ⎜ . . ⎟
⎜ n ⎟
⎝1 1

n
2 ⎠
n
(xj1 − x̄1 )(xjp − x̄p ) · · · n
(xjp − x̄p )
j=1 j=1
De manera similar, se puede particionar el vector de medias muestrales y la respectiva matrı́z de

covarianzas muestral. Si ⎛ ⎞
x̄1
⎜ .. ⎟
⎜ . ⎟ ⎛ (1) ⎞
⎜ ⎟
⎜ x̄q ⎟ x̄
⎜ ⎟ ⎝
X̄ = ⎜ − − − ⎟ = − − −⎠
⎜ ⎟
⎜ x̄q+1 ⎟ x̄(2)
⎜ . ⎟
⎝ .. ⎠
x̄p
entonces,
⎡ ⎤
s11 ··· s1q | s1,q+1 ··· s1p
⎢ .. .. .. .. ⎥
⎢ . . | . . ⎥ ⎡ ⎤
⎢ ⎥
⎢ sq1 ··· sqq | sq,q+1 ··· sqp ⎥ S11 | S12
⎢ ⎥
Sn = ⎢ −− −− −− | −− −− −− ⎥ = ⎣−− | −−⎦ .
⎢ ⎥
⎢sq+1,1 · · · sq+1,q | sq+1,q+1 · · · sq+1,p ⎥ S21 | S22
⎢ . .. .. .. ⎥
⎣ .. . | . . ⎦
sp1 ··· spq | sp,q+1 ··· spp
donde
⎧
⎪
⎨S11 es de orden q × q

S12 = S21 es de orden q × (p − q)
⎪
⎩
S22 es de orden (p − q) × (p − q)
3.4. FORMAS MATRICIALES EFICIENTES 29
3.4. Formas matriciales eficientes

Sea Xn×p la matriz de datos. El cálculo del vector de medias y matrı́z de covarianzas muestrales,
pueden ser realizados usando una notación matricial más sencilla.
El vector de medias se puede calcular como
# n $
1 1 n
1 n
x̄ = (x̄1 , · · · , x̄p ) = x̄j1 , x̄j2 , · · · , x̄jp
n j=1 n j=1 n j=1
⎛ ⎞
x11 · · · x1p
1 ⎜ .. ⎟ = 1 1 X
= (1, · · · , 1) ⎝ ... ...
. ⎠
n n n
xn1 · · · xnp
La matrı́z de covarianzas muestrales puede escribirse como:

1 1
Sn = X In − 1n 1n X
n n
En efecto. Haciendo x̃ = (x1 − x̄, · · · , xn − x̄) , tenemos que

1
x̃ = x − x̄ 1n = x In − 1n 1n
n
! " ! " ! "
Pero como In − n1 1n 1n In − n1 1n 1n = In − n1 1n 1n , entonces:

1
n
1 1 1
(xi − x̄)(xi − x̄) = X̃ X̃ = X I n − 1n 1n X
n i=1 n n n
La matriz de correlación se obtiene como:
R = D−1/2 Sn D−1/2 ,
donde D−1/2 es la matriz diagonal con los inversos de las desviaciones estándar sobre la diagonal;
es decir,
⎡ 1 ⎤
√
s11
0 ··· 0
⎢ √1
⎥
⎢ 0 s22
··· 0 ⎥
D −1/2
=⎢⎢ .. .. ⎥ .
⎥
⎣ . . 0 ⎦
1
0 0 ··· √
spp
La varianza generalizada se define como el determinante de la matriz Sn , es decir

V G = |Sn | .
La varianza total es la traza de Sn , es decir
p

V T = tr (Sn ) = sjj .
j=1
3.5. Muestras aleatorias de distribuciones p- variadas

Al igual que en el caso univariado, la importancia de definir estadı́sticos descriptivos está fundamen-
tada en la necesidad de hacer inferencias sobre los parámetros desconocidos de una distribución o
población de interés. En el caso univariado los parámetros de interés son principalmente el vector
de medias y la matrı́z de covarianzas (veremos que también es posible realizar inferencias acerca de
combinaciones lineales del vector de medias o de múltiples combinaciones de dicho vector, llamadas
contrastes.)
En el caso univariado, se está interesado en una sola caracterı́stica de una población de interés, usual-
mente representada por una variable aleatoria X con una distribución de probabilidad f (x). Una
muestra aleatoria de esta población está relacionada con un conjunto de n variables aleatorias iden-
ticamente distribuı́das e independientes; es decir, un conjunto de n variables aleatorias X1 , · · · , Xn ,
tales que:
g(x1 , · · · , xn ) = f1 (x1 ) · · · fn (xn ) = f (x1 ) · · · f (xn ) .
En el caso multivariado, tenemos un vector de variables aleatorias de dimensión p, X, y distribución de

probabilidad p−variada f (x). Una muestra aleatoria X1 , · · · , Xn de esta distribución, es un conjunto
de n variables aleatorias p-variadas independientes e idénticamente distribuı́das. Esto es:
%
n
h(x1 , · · · , xn ) = h1 (x1 ) · · · hn (xn ) = f (xi ) .
i=1
El siguiente resultado es de gran importancia para la parte inferencial acerca del vector de medias
y matriz de covarianzas de un vector aleatorio (usualmente conocidos como el vector de medias y
matriz de covarianzas de la población).
Teorema 3.5.1. Sea X1 , · · · , Xn una muestra aleatoria de una distribución p-variada con vector de
medias μ y matrı́z de varianzas y covarianzas Σ. Entonces:
1
E(X̄) = μ y Cov(X̄) = Σ.
n
n−1
E(Sn ) = Σ
n
Prueba
Primero observe que
1
X̄ = (X1 + · · · + Xn )
n
De esta manera se tiene que:
1 1
E(X̄) = E(X1 ) + · · · + E(Xn )
n n
1 1
= μ + ··· + μ = μ
n n
3.5. MUESTRAS ALEATORIAS DE DISTRIBUCIONES P - VARIADAS 31
Para el cálculo de la covarianza observe que:
# $# $
1 1
n n
(X̄ − μ) (X̄ − μ) = (Xj − μ) (Xk − μ)
n j=1 n k=1
1
n n
= (X̄j − μ) (X̄k − μ)
n2 j=1 k=1
De donde se obtiene,
1 &
n
' 1
Cov(X̄) = E (X̄j − μ) (X̄j − μ) = 2 (Σ + · · · + Σ)
2
n j=1 n

n términos
1 1
= 2
(n Σ) = Σ
n n
Para calcular el valor esperado de Sn observe que:
! "! " &! "! "'
Xj − X̄ Xj − X̄ = Xji − X̄i Xjk − X̄k
Ahora,

n
! "! "
n
! "
n
! "! "
Xj − X̄ Xj − X̄ = Xj − X̄ Xj + Xj − X̄ −X̄
j=1 j=1 j=1

n
= ¯´
Xj Xj − n X̄ X
j=1
Esto debido a que

n
! "
n

Xj − X̄ = 0 y n X̄ = Xj Conesto,
j=1 j=1
( ) ( )

n
! "! "
n
E Xj − X̄ Xj − X̄ = E ¯´
Xj Xj − n X̄ X
j=1 j=1

n
! " * +
= ¯´
E Xj Xj − n E X̄ X
j=1
Para cualquier vector aleatorio V con media μV y matrı́z de covarianzas ΣV , se tiene que:
E [V V ] = ΣV + μV μV .
Con base en el resultado anterior, se deduce que,

! " ! " 1
E Xj Xj = Σ + μ μ y E X̄ X̄ = Σ + μ μ .
n
Usando estas últimas expresiones, obtenemos que:

n * + n
! " ¯ 1
E Xj Xj − n E X̄ X´ =
(Σ + μ μ ) − n Σ + μμ
j=1 j=1
n
= n Σ + μ μ − Σ − μ μ = (n − 1) Σ
Como # $
1
n
Sn = ¯´
Xj Xj − n X̄ X
n j=1
se concluye que
n−1
E (Sn ) = Σ .
n
Los anteriores resultados indican que el vector de medias muestrales es un estimador insesgado para
μ y que la matrı́z de covarianzas muestral es un estimador sesgado para la matrı́z de covarianzas
poblacional Σ. Un estimador insesgado para Σ, está dado por:
(# $)
1
n
n
S = Sn = (xji − x̄i ) (xjk − x̄k )
n−1 n − 1 j=1
Se define la varianza generalizada muestral como |S| (el determinante de S.)
3.6. Distancia
Muchas de las importantes técnicas del análisis mutivariado se basan en el concepto de distancia.
El medir distancias entre variables es importante ya que permite obtener una idea de la proximidad
entre ellas. La distancia permite también juzgar lo plausible de una estimación o la bondad de ajuste
de un modelo.
Definición 3.6.1. Dados dos vectores X e Y ∈ Rp , X = (x1 , . . . , xp ) y Y = (y1 , . . . , yp ), la distancia

euclidea entre X e Y se define como

d(X, Y) = (x1 − y1 )2 + · · · + (xp − yp )2 .
Sin embargo, la distancia euclidea no es completamente satisfactoria desde un punto de vista es-
tadı́stico, ya que cada coordenada esta ponderada por un mismo factor. Cuando las coordenadas
representan medidas sujetas a fluctuaciones aleatorias de diferentes magnitudes (por ejemplo, la al-
tura(en metros) y la masa(en kilogramos)), es preferible ponderar de acuerdo a su variabilidad. Lo
usual es usar ponderaciones pequeñas para las coordenadas sujetas a un alto grado de variabilidad
(para juzgar la variabilidad es conveniente calcular estadı́sticos de resumen y/o hacer gráficos.) Por
esto es necesario desarrollar una distancia que tenga en cuenta la variabilidad y la dependencia entre
las variables(correlación).
3.6. DISTANCIA 33
Figura 3.1: Variables Independientes
Por simplicidad, suponga que se tienen n pares de mediciones en dos variables X1 y X2 , de manera
que las mediciones para X1 varian independientemente de las mediciones para X2 . Adicionalmente,
asuma que la variabilidad en X1 es mayor que la de X2 (ver figura 3.1).
El proceso de dividir cada valor de la variable por su desviación estándar, permite que estas sean
comparables (esto es necesario debido a la diferencia en la variabilidad). En otras palabras, las
observaciones resultantes, x∗1 y x∗2 estarán dadas por:
x1 x2
x∗1 = √ y x∗2 = √
s11 s22
La distancia euclidea entre el punto (x∗1 , x∗2 ) y el origen de coordenadas (0, 0), denominada Distancia
Estadı́stica, está dada por: ,

∗2 ∗2 x21 x22
d(0, P ) = x1 + x2 = + .
s11 s22
donde P = (x∗1 , x∗2 ).
Si en vez de dos variables tenemos p variables, manteniendo la premisa de independencia entre ellas,
y tal como en el caso de dos variables, dividimos cada observación por su respectiva desviación
estándar, tenemos que la distancia estadı́stica entre P = (x1 , . . . , xp ) y el origen de coordenadas en
Rp , 0 = (0, · · · , 0) está dada por:
,
x21 x2p
d(0, P ) = + ··· +
s11 spp
Si se tiene un par de observaciones p-variadas de la misma población, P = (x1 , · · · , xp ) y

Q = (y1 , · · · , yp ) , la distancia estadı́stica entre P y Q, estará dada por:
,
(x1 − y1 )2 (xp − yp )2
d(P, Q) = + ··· +
s11 spp
Nota: Si s11 = s22 = · · · = spp , entonces la distancia euclidiana es apropiada para el cálculo de la
distancia entre P y Q.
En general, la distancia euclidiana no es recomendable porque:
No es invariante frente a cambios de escala de las variables

Presupone que las variables son incorrelacionadas y de varianza unitaria.
Si las variables no varian independientemente unas de otras, estas expresiones no son adecuadas.
Suponga nuevamente que se tienen un par de variables aleatorias X1 y X2 , las cuales no son inde-
pendientes (ver figura 3.2).
Figura 3.2: Variables Dependientes
Observe que al rotar cierto ángulo θ esta dependencia disminuye en los nuevos ejes x̃1 , x̃2 .
Hacienco P = (x̃1 , x̃2 ) y usando las varianzas muestrales de las nuevas variables x̃1 y x̃2 , se tiene que:
,
x̃21 x̃2
d(0, P ) = + 2
s̃11 s̃22
La relación entre estas coordenadas (x̃1 , x˜2 ) y las originales (x1 , x2 ) está dada por:
x̃1 = x1 cos(θ) + x2 sin(θ)

x̃2 = −x1 sin(θ) + x2 cos(θ)
De esta manera, y después de algunos cálculos, tenemos que:

d(0, P ) = a11 x21 + 2a12 x1 x2 + a22 x22
Aquı́, a11 , a12 , a22 están determinados por θ, y s11 , s12 , s22 se obtienen de los datos:

cos2 (θ) sen2 (θ) sen(θ) cos(θ) (s22 − s11 ) sen2 (θ) cos2 (θ)
a11 = + , a12 = , a22 = + .
s11 s22 s11 s22 s11 s22
3.6. DISTANCIA 35
Si se quiere calcular la distancia de P a un punto fijo Q, donde P = X = (x1 , x2 ) y Q = Y = (y1 , y2 ),

esta se obtiene como:

d(P, Q) = a11 (x1 − y1 )2 + 2 a12 (x1 − y1 )2 (x2 − y2 )2 + a22 (x2 − y2 )2 .
En general si P = (x1 , . . . , xp ) y Q = (y1 , . . . , yp ) es un punto fijo,

d(P, Q) = a11 (x1 − y1 )2 + · · · + app (xp − yp )2 + 2 a12 (x1 − y1 ) (x2 − y2 ) + . . . + 2 ap−1,p (xp−1 − yp−1 ) (xp − yp ) .
Los coeficientes aij pueden arreglarse matricialmente:

⎛ ⎞
a11 · · · a1p
⎜ ⎟
A = ⎝ ... ⎠.
a1p · · · app
Ahora, note que
d(P, Q)2 = a11 x21 + · · · + app x2p + 2(a12 x1 x2 + · · · + ap−1,p xp−1 xp )

⎛ ⎞
x1
⎜ .. ⎟
= (x1 , . . . , xp ) A ⎝ . ⎠ = X A X > 0
xp
Esta propiedad hace que A sea definida positiva.

Si Q = μ = (μ1 , · · · , μp )
d(P, Q)2 = (X − μ) A (X − μ) .
Si A = Σ−1 se obtiene la llamada distancia de Mahalanobis; es decir
(X − μ) Σ−1 (X − μ) .
Su versión muestral está dada por:
(X − X̄) S −1 (X − X̄) .
Resumen:
La distancia de Mahalanobis entre dos vectores X y Y ∈ Rp , está dada por:
(X − Y) Σ−1 (X − Y) si Σ es conocida ,
y por
(X − y) S −1 (X − y) si Σ es desconocida .
.
La distancia de Mahalanobis entre X y su vector de medias μ, está dada por
(X − μ) Σ−1 (X − μ) si Σ y μ son conocidas ,
y por
(X − X̄) S −1 (X − X̄) si Σ y μ son desconocidas .
Si X̄1 y X̄2 son vectores de medias asociados con dos grupos diferentes, la distancia de Maha-
lanobis estimada entre ambas está dada por:
(X̄1 − X̄2 ) Sp−1 (X̄1 − X̄2 ) ,
donde Sp será la matriz de Covarianzas mezclada de ambos grupos.
Usos:
La distancia de Mahalanobis puede usarse para medir la distancia entre dos individuos:
(X − Y) Σ−1 (X − Y) ,
donde X e Y representan los vectores de caracterı́sticas en lo dos individuos.

Puede usarse para medir la distancia de un individuo a la media de la población:
(X − μ) Σ−1 (X − μ) .
Puede usarse para medir la distancia entre las medias de dos poblaciones:
(μ1 − μ2 ) Σ−1
p (μ1 − μ2 ) .
Otras medidas de distancia

Suponga que se desea encontrar una medida de distancia entre un par de vectores de observaciones
xi = (x11 , . . . , xip ) y xj = (xj1 , . . . , xjp ) .
Distancia de Minkowski. La distancia entre la observación i y la j está dada por:

# $ 1q

p
δmq (i, j) = |xik − xjk |q ; q>0
k=1
Esta distancia tiene los mismos inconvenientes que la distancia euclidiana. En este caso, la
distancia euclidiana es un caso particular de la de Minkowski, cuando q = 2.
Distancia de Manhattan. esta se obtiene de la distancia de Minkowski haciendo q = 1:

p
δm1 (i, j) = |xik − xjk | .
k=1
3.6. DISTANCIA 37
Distancia Máxima.
dmax (i, j) = max{ |xi1 − xj1 |, |xi2 − xj2 |, . . . , |xip − xjp | } .
Distancia de Canberra.

p
|xik − xjk |
δC (i, j) = .
|xik | + |xjk |
k=1
Distancias para variables Binarias

Suponga que en los n sujetos u objetos se registra un vector X = (X1 , . . . , xp ) de variables binarias
(solo toman valores de 0 o 1). En este caso la expresión más apropiada se refiere a medidas de simila-
ridad. En este caso las diferentes medidas de similaridad entre observaciones, se basan en comparar
la coincidencia o no entre los valores de todas las variables. Sea dij una medida de similaridad entre
las observaciones i y j. Para este par de observaciones denote
a Número de variables con respuesta 1 en ambas observaciones
b Número de variables con respuesta 0 en el sujeto i y 1 en el sujeto j
c Número de variables con respuesta 1 en el sujeto i y 0 en el sujeto j
d Número de variables con respuesta 0 en ambas observaciones
Esto se puede resumir en la siguiente tabla: (ver figura 3.3).
Figura 3.3: Tabla de indicadores de similaridad obs i y j
Usando la tabla anterior, se pueden definir varias distancias o medidas de similaridad. Haciendo
p = a + b + c + d, se tiene:
Sokal y Michener:
a+d
sij = .
p
Jaccard:
a
sij = .
a+b+c
Al aplicar estos indicadores a las n observaciones se obtiene una matriz de similaridades S = [(sij )]n×n .
Ejercicio 3.6.1. Suponga que se tiene información sobre 4 sujetos en 6 variables, en las cuales se
han clasificado como presencia (1) o ausencia (0) de cierta patologı́a. Los resultados se muestra en
la siguiente tabla.
Sujeto X1 X2 X3 X4 X5 X6
1 1 1 0 0 1 1
2 1 1 1 0 0 1
3 1 0 0 1 0 1
4 1 0 1 0 0 0
Usando el ı́ndice de Sokal y Michener se obtiene las siguientes tablas para el sujeto 1 comparado con
los demás (ver figura 3.4).:
Figura 3.4: Tabla de indicadores de similaridad obs 1 y las demás
La matriz de similaridades usando el ı́ndice de Sokal y Michener es:
⎛ 2 1 1⎞
1 3 2 3
⎜2 1 1 2⎟
SSM =⎜ 3
⎝1 1 1
2 3⎟
1⎠
2 2 2
1 2 1
3 3 2 1
Ejercicio 3.6.2. Los biólogos Grojan y Wirth (1981) describieron dos nuevas especies de insectos,
Ameroheleafasciata (AF) y Apseudofasciata (APF). Puesto que las especies son similares en
apariencia, resulta útil para el biólogo estar en capacidad para clasificar un especimen como AF o
APF basado en caracterı́sticas externas que son fáciles de medir. Entre algunas de las caracterı́sticas
que distinguen los AP de los APF, Grojan y Wirth reportan medidas de la longitud de las antenas
y la longitud de las alas, ambas en milı́metros, de nueve insectos AF y seis insectos APF. Una de
las preguntas que los motivó a llevar a cabo su estudio fue: “¿será posible encontrar una regla que
nos permita clasificar un insecto dado como AF o APF, basados unicamente en mediciones de las
antenas y las alas?”
(La respuesta a esta pregunta es afirmativa y el método se verá más adelante en el curso). Los datos
recopilados son:
3.6. DISTANCIA 39
Especie Longitud de las antenas (X) Longitud de las alas (Y )

AF 1.38 1.64
AF 1.40 1.20
AF 1.24 1.72
AF 1.36 1.74
AF 1.38 1.82
AF 1.48 1.82
AF 1.54 1.82
AF 1.38 1.90
AF 1.56 2.08
APF 1.14 1.78
APF 1.20 1.86
APF 1.18 1.96
APF 1.30 1.96
APF 1.26 2.00
APF 1.28 2.00
1. Construya un gráfico de X vs Y . Comente acerca de la apariencia de estos datos.

2. Para cada grupo de (AF y APF) calcule el vector de medias muestrales, la matrı́z de covarianzas
muestral, la matrı́z de correlación muestral y la varianza generalizada.
3. Calcule la distancia euclidea entre el vector de medias de AF y el de APF.
4. Calcule la distancia de Mahalanobis entre el vector de medias de AF y el de APF.
5. ¿Considera usted razonable el usar la distancia de Mahalanobis en cada uno de los grupos?
El gráfico de el vector bivariado discriminado por especie se muestra en la figura 3.5.

Comandos en R.
insec <- read.table(file.choose(),header=T)

Euclidiana
round(dist(insec[,2:3], method = "euclidean"), 2)

dist(insec[,2:3], method = "maximum")
dist(insec[,2:3], method = "manhattan")
round(dist(insec[,2:3], method = "canberra"), 2)
round(dist(insec[,2:3], method = "minkowski"), 2)
library(ggplot2)
1. Grafico X vs Y
ggplot(data=insec,aes(Long_Ant, Long_alas,color=Especie)) + geom_point(size=5, pch=2)
2. Vectores de Medias
af <- insec[insec[,1]=="AF",]
apf <- insec[insec[,1]=="APF",]
Figura 3.5: Gráfico de dispersión por Especie
Matrices de Covarianzas Muestrales
maf <- as.numeric(apply(af[,2:3], 2, mean))

mapf <- as.numeric(apply(apf[,2:3], 2, mean))
saf <- matrix(as.numeric(var(af[,2:3])),ncol=2,byrow=T)
sapf <- matrix(as.numeric(var(apf[,2:3])),ncol=2,byrow=T)
rhoaf <- matrix(as.numeric(cor(af[,2:3])),ncol=2,byrow=T)

rhoapf <- matrix(as.numeric(cor(apf[,2:3])),ncol=2,byrow=T)
spool <- (nrow(af)/nrow(insec))*saf + (nrow(apf)/nrow(insec))*sapf
Distancia euclidea
t(maf - mapf)%*%(maf - mapf)
Distancia Mahalanobis entre medias
t(maf - mapf)%*%solve(spool)%*%(maf - mapf)

3.7. DATOS FALTANTES. (MISSING DATA) 41
3.7. Datos faltantes. (Missing data)

Ver referencia Littel R.J y Rubi D.B 1987.
Fuentes de datos faltantes:
Recopilando información con humanos. Puede suceder que algunas personas no asistan el dı́a
acordado para registrar su información.
Laboratorios. Un accidente puede producir información incompleta.
Encuestas. Algunas personas puede negarse a dar información.
Error humano. Al recopilar la información computacionalmente se pueden cometer errores de
omisión o de digitación.
Existen técnicas que trabajan bien en presencia de datos faltantes pero otras funcionan bien uni-
camente en presencia de datos completos. Algunas veces se opta por eliminar aquellos sujetos con
información incompleta; sto puede traer consecuencias no deseadas ya que el tamaño muestral se pue-
de ver fuertemente reducido y esto puede comprometer la calidad de las estimaciones. Una alternativa
de estimar las observaciones faltantes (Imputación de datos)
Algunas técnicas de imputación

Reemplace los valores faltantes por el promedio de los valores observados en la variable corres-
pondiente.
Regresión múltiple. Trata la variable con datos faltantes como si fuera la variable dependiente
(o la respuesta) y ajusta un modelo de regresión asumiendo que las variables con información
completa son las variables independientes. En este caso se procede ası́:
1. Particione la matriz de datos en dos: Una parte contiene las filas con las observaciones que
tienen entradas faltantes y la otra con las observaciones completas.
2. Suponga que la entrada xij corresponde a un dato faltante (para el sujeto i en la variable
j).
3. Emplee la matriz de observaciones completa para regresar la variable xj sobre las otras
variables y ası́ obtener el modelo estimado:
x̂j = b0 + b1 x1 + · · · + bj−1 xj−1 + bj+1 xj+1 + · · · + bp xp .
4. Reemplace las entradas no faltantes de la i-ésima fila en el miembro derecho de esta ecuación
para obtener una estimación de x̂ij . Este proceso se puede iterar ası́:
• Estime todos los datos faltantes usando la ecuación de regresión.
• Despues de imputar los datos faltantes use la matriz de datos completa para estimar
nuevas ecuaciones de predicción.
• Con estas nuevas ecuaciones impute nuevamente los datos faltantes.
• Repita este proceso hasta observar una estabilización de los valores estimados.
El paquete SAS, contiene un procedimiento llamado PROC MI, un proceso experimental que imputa
automaticamente todos los datos faltantes en una base de datos.
En R se usa el paquete vim.
require(VIM)
require(FactoMineR)
require(tidyr)
require(dplyr)
require(magrittr)
Ejemplo 3.7.1. Suponga que se tienen los siguientes datos:

X1 X2 X3 X4
• 51 4.8 115
1.40 60 • 130
1.42 69 5.8 138
1.54 73 6.5 148
1.30 56 5.3 122
1.55 75 7.0 152
1.50 80 8.1 160
1.60 76 7.8 155
1.41 58 5.4 135
1.34 70 6.1 140
Paso 1. Primero ajustamos un modelo de regresión lineal múltiple de x1 contra las variables
x2 , x3 y x4 . La ecuación de regresión ajustada es la siguiente:
x̂1 = 0.179 − 0.006 x2 − 0.015 x3 + 0.013 x4 .
Reemplazando x2 = 51, x3 = 4.8 y x4 = 115 se obtiene x̂1 = 1.24.

Paso 2. Ajustamos x3 contra las demás variables. El modelo resultante es:
x̂3 = −4.417 − 0.674 x1 − 0.014 x2 + 0.076 x4 .
Reemplazando x1 = 1.40, x2 = 60, x4 = 130 se obtiene x̂3 = 5.36.

Paso 3. Con esto s valores se completa la base de datos y se repiten los pasos 1 y 2.
x̂1 = 0.193 − 0.006 x2 − 0.019 x3 + 0.013 x4 .
Reemplazando x2 = 51, x3 = 4.8 y x4 = 115 se obtiene x̂1 = 1.24.

analogamente
x̂3 = −3.145 − 1.010 x1 + 0.014 x2 + 0.071 x4
Reemplazando x1 = 1.40, x2 = 60, x4 = 130 se obtiene x̂3 = 5.48.
Despúes de repetir el proceso dos veces más se tiene x̂1 = 1.25, x̂3 = 5.52.
Usando la media muestral se obtiene x̂1 = 1.45, x̂3 = 6.31.
Capı́tulo 4
Distribución normal multivariada
De las mismas manera en que muchas técnicas univariadas (tales como el ánalis de regresión) se
basan en la distribución normal, muchas de las técnicas multivariadas se basan en la que se conoce
como la distribución normal multivariada.
En el caso univariado cuando no se cumple el supuesto de normalidad existen algunas alternativas
para este problema:
1. Transformación de datos.
2. Uso de teoremas limites (Estadı́stica Asintótica).
3. Técnicas no paramétricas.
La importancia de la distribución normal multivariada radica en un sin-número de propidades aso-
ciadas con ella y a resultados asintóticos muy importantes relacionados con distribuciones muestrales
(TLC). Matemáticamente es una distribución razonablemente tratable; sirve como un modelo pobla-
cional para ciertos fenómenos naturales y de ella se pueden derivar otras importantes distribuciones,
tales como la llamada T 2 de Hotelling y la W de W ishart.
En el análisis multivariado, la normal multivariada, se puede trabajar desde dos perspectivas:
Mediante la p.d.f conjunta
Mediante una caracterización propuesta por RAO basada en la normal univariada.
La p.d.f normal multivariada surge de manera más o menos natural como una extensión de la normal
univariada. Recuerde que en el caso univariado, si X ∼ N (μ, σ 2 ), entonces:
1 1 x−μ 2
f (x) = √ e− 2 ( σ )
2πσ
1 ! "− 1 1 2 −1
= (2 π) 2 σ 2 2 e− 2 (X−μ) (σ ) (X−μ)
Note que:
2
X −μ ! "−1/2
= (X − μ) σ 2 (X − μ) ,
σ
mide el cuadrado de la distancia entre X y μ escalada según la desviación estándar.
43
44 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA
Esta idea puede generalizarse a un vector X en Rp de observaciones en p variables por medio de:
(X − μ) Σ−1 (X − μ) , ∗
donde μ es el vector poblacional de medias asociado al vector aleatorio X y Σp×p es la matrı́z de

covarianzas del vector X.
De ahora en adelante se asumirá que Σ es definida positiva (este supuesto garantiza la existencia de
la inversa Σ−1 .) La expresión ∗ indica que se trabaja con la distancia de Mahalanobis entre X y μ .
Definición 4.0.1. Sea X un vector aleatorio ∈ Rp . Se dice que X tiene una p.d.f Normal Multi-
variada, y se escribe X ∼ Np (μ, Σ) si:
− p2 − 12 − 12 (x−μ) Σ−1 (x−μ)

f (x) = (2 π ) |Σ| e .
Note la similaridad con la contraparte unidimensional expuesta arriba.
4.1. Aspectos geométricos relacionados con la normal mul-

tivariada
La expresión (x − μ) Σ−1 (x − μ) = c2 , la cual se basa en el exponente de la p.d.f normal multiva-
riada, correponde a un hiper-elipsoide, para cualquier c > 0.
√
Este tipo de hiper-elipsoides están centrados en μ y tiene ejes ± c λi ei , i = 1, · · · , p, donde λi es
el i-ésimo valor propio de Σ asociado al vector propio ei .
Resultado 4.1.1. Si Σ es definida positiva y λ es un valor propio de Σ asociado al vector propio e

entonces:
−1 1
Σ e = λe implica que Σ e = e
λ
También Σ−1 es definida positiva.
Prueba Como Σ es d.p, e Σ e > 0 , e = 0, donde e es un vector propio de Σ. Como Σ e = λ e,

entonces:
e Σ e = e (λe)
= λ e e
=λ.
De esta última expresión se deduce que λ > 0. Ahora,
e = Σ−1 (Σ e) = Σ−1 (λ e)
4.1. ASPECTOS GEOMÉTRICOS RELACIONADOS CON LA NORMAL MULTIVARIADA 45
Entonces
1
e = Σ−1 e
λ
Lo que implica que 1
λ
es un valor propio de Σ−1 asociado al vector propio e.
Ahora, para un vector x = 0, observe que:
# p $
1
x Σ−1 x = x ei ei x
i=1
λi
p
1
= x ei ei x
i=1
λi
p
1 2
= (ei x)
i=1
λi
>0
Esto debido a que λi > 0 y x = 0. De esta manera se concluye que Σ−1 es d.p. Como Σ = P Λ P ,
entonces se verifica fácilmente que Σ−1 = P Λ−1 P , lo que equivale a escribir Σ−1 como:
p
1
−1
Σ = ei ei
i=1
λ i
Ejemplo 4.1.1. Suponga que Σ = [(σij )]2×2 y que σ11 = σ22 . Grafique el elipsoide correspondiente
bajo la restricción de que ρ > 0.
√
Solución. Los ejes del elipsoide estarán dados por ± c λi ei , con i = 1, 2 y c > 0. Para hallar los
valores propios de Σ se debe resolver la ecuación |Σ − λ I2 | = 0.
- -
- σ11 σ12 λ 0 -
|Σ − λ I2 | = -- − -
σ12 σ22 0 λ -
- -
-σ11 − λ σ -
= -- 12 -
σ12 σ11 − λ-
= (σ11 − λ)2 − σ12
2
= (σ11 − λ − σ12 )(σ11 − λ + σ12 )

=0
De esta última expresión se obtiene: λ1 = σ11 + σ12 y λ2 = σ11 − σ12 . Los respectivos vectores
propios se obtienen al resolver la ecuación: Σ e = λi e . Por ejemplo, sea e1 = (e1 , e2 ) el vector propio
asociado al valor propio λ1 . Entonces:

σ11 σ12 e1 e
= (σ11 + σ12 ) 1
σ12 σ11 e2 e2
De lo cual se obtiene el siguiente sistema de ecuaciones:

σ11 e1 + σ12 e2 = (σ11 + σ12 ) e1 ⇒ e1 = e2

σ12 e1 + σ11 e2 = (σ11 + σ12 ) e2 ⇒ e1 = e2
El vector e1 normalizado está dado por:

e1 1 1 1
= 2 e21 = (e1 , e1 ) × √ = √ ,√
||e1 || 2 e1 2 2
Análogamente, el segundo vector propio asociado al valor propio λ2 es:
* +
e2 = √12 , − √12 .
Como ρ > 0, entonces σ12 > 0; y ası́ λ1 > λ2 , ya que

λ1 = σ11 + σ12 > σ11 > σ11 − σ12 = λ2 .
De lo anterior se concluye que si σ11 = σ22 y ρ > 0 , el eje mayor de la elipse está a lo largo de una
lı́nea cuya inclinación es de 45o y que pasa por μ = (μ1 , μ2 ). El respectivo gráfico se muestra en la
figura 4.1.
Figura 4.1: Elipsoide para Normal Bivariada
Este ejemplo se retomará más adelante en el tema de componentes principales.
Ejemplo 4.1.2. Suponga que el vector aleatorio X = (X1 , X2 ) tiene una distribución Normal con
vector de medias μ = (μ1 , μ2 ) y matrı́z de covarianzas Σ. La distribución resultante es llamada
Normal Bivariada. La forma explı́cita de la función se obtiene ası́:
4.1. ASPECTOS GEOMÉTRICOS RELACIONADOS CON LA NORMAL MULTIVARIADA 47

σ11 σ12
Suponga que Σ = . De esta manera se tiene:
σ12 σ22

−1 1 σ22 −σ12
Σ = 2
σ11 σ22 − σ12 −σ12 σ11
√ √
Observe que ρ12 σ11 σ22 = σ12 , con ρ = ρ12 , entonces:
2
σ11 σ22 − σ12 = σ11 σ22 − ρ2 σ11 σ22 = σ11 σ22 (1 − ρ2 )
Ahora,
−1 −1 x 1 − μ1
(x − μ) Σ (x − μ) = (x1 − μ1 , x2 − μ2 ) Σ
x 2 − μ2
√ √
σ22 (x1 − μ1 )2 + σ11 (x2 − μ2 )2 − 2 ρ σ11 σ22 (x1 − μ1 ) (x2 − μ2 )
=
σ11 σ22 (1 − ρ2 )
( 2 2 )
1 x 1 − μ1 x 1 − μ1 x 2 − μ2 x 2 − μ2
= √ − 2 ρ12 √ √ +
1 − ρ2 σ11 σ11 σ22 σ22
Se sabe que |Σ| = σ11 σ22 (1 − ρ2 ), ası́:
f (x) = f (x1 , x2 )
( 2 )
−1/2 1 x 1 − μ 1
= (2π)−2/2 |Σ| exp − √
2(1 − ρ2 ) σ11

ρ x 1 − μ1 x 2 − μ2
× exp √ √
(1 − ρ )
2 σ11 σ22
( 2 )
1 x 2 − μ2
× exp − √
2(1 − ρ )2 σ22
( 2 )
1 x 1 − μ 1
= (2π)−1 (σ11 σ22 (1 − ρ2 )−1/2 ) exp − √
2(1 − ρ2 ) σ11

ρ x 1 − μ1 x 2 − μ2
× exp √ √
(1 − ρ )
2 σ11 σ22
( 2 )
1 x 2 − μ2
× exp − √
2(1 − ρ )2 σ22
Observación:
Recuerde que si X1 y X2 son independientes ⇒ ρ = 0
En la expresión para f (x), con p = 2, si ρ = 0 se tiene que:
2 2 .
1 1 x 1 − μ1 x 2 − μ2
f (x1 , x2 ) = √ exp − √ + √
2π σ11 σ22 2 σ11 σ22
( 2 ) ( 2 )
1 1 x 1 − μ1 1 1 x 2 − μ2
=√ √ exp − √ ×√ √ exp − √
2π σ11 2 σ11 2π σ22 2 σ22
= f (x1 ) f (x2 )
Entonces X1 y X2 son independientes. Por lo tanto, si ρ = 0 ⇒ X1 y X2 son independientes.
4.2. Propiedades de la Distribución Normal Multivariada

Sea X ∈ Rp un vector aleatorio.
1. Si X ∼ Np (μ, Σ) , entonces, E(X) = μ , y Cov(X) = Σ . La distribución queda completamente

caracterizada por μ y Σ .
2. Si X ∼ Np (μ , Σ) , entonces a X = a1 X1 + · · · + ap Xp se distribuye normal univariada:

N (a μ , a Σ a) . Análogamente, si ∀a ∈ Rp , a X se distribuye normal univariada, entonces
X se distribuye normal multivariada.
3. Si X ∼ Np (μ, Σ) , entonces:
El vector X + d tiene una distribución Np (μ + d, Σ) .
El vector Y = A X + b ∼ Nq (A μ + b , A Σ A ) , donde Aq×p y bq×1 .
⎛ (1) ⎞ ⎛ (1) ⎞
X μ
4. Suponga que X ∼ Np (μ, Σ) , y que X = ⎝ −− ⎠ . Sabemos que: μ = ⎝ −− ⎠ y que
⎛ ⎞ X(2) μ(2)
Σ1 1 | Σ 1 2
Σ = −− | −−⎠ . Entonces: X(1) ∼ Nq (μ(1) , Σ11 ) y X(2) ∼ Np−q (μ(2) , Σ22 ) .
⎝
Σ 2 1 | Σ2 2
5. Suponga que X ∼ Np (μ, Σ) .

⎛ (1) ⎞
X
Si X = −− ⎠ , se tiene que X(1) y X(2) son E.I. si, y solo si, Σ12 = Σ21 = 0 .
⎝
X(2)
Sean X(1) y X(2) vectores aleatorios E.I. tales que X(1) ∼ Nq1 (μ(1) , Σ11 ) y X(2) ∼
Nq2 (μ(2) , Σ22 ) . Entonces
⎛ (1) ⎞ ⎛⎛ (1) ⎞ ⎛ ⎞⎞
X μ Σ1 1 | 0
X = ⎝ −− ⎠ ∼ Nq1 +q2 ⎝⎝ −− ⎠ , ⎝ −− | −− ⎠ ⎠ .
X(2) μ(2) 0 | Σ2 2
• La normal multivariada es la única distribución conocida con esta propiedad (covarianza
cero implica que las respectivas componentes son independientes) .
4.2. PROPIEDADES DE LA DISTRIBUCIÓN NORMAL MULTIVARIADA 49
• Si Σ1 2 = 0 , X(1) y X(2) siguen siendo normales multivariadas.

⎛ (1) ⎞ ⎛ (1) ⎞
X μ
6. Sea X = ⎝ −− ⎠ ∼ Np (μ, Σ) , donde μ = ⎝ −− ⎠ ,
⎛ X(2) ⎞ μ(2)
Σ11 | Σ12
Σ = ⎝−− | −−⎠ y |Σ12 | > 0.
Σ21 | Σ22
Entonces la distribución condicional de X(1) dado X(2) = x(2) es una normal multivariada
con vector de medias
μX(1) | x(2) = μ(1) + Σ12 Σ−1
22 (x
(2)
− μ(2) )
y matrı́z de covarianzas
ΣX(1) | x(2) = Σ11 − Σ12 Σ−1
22 Σ21 .
7. Estandarización multivariada. Sea X ∈ Rp un vector aleatorio tal que X ∼ Np (μ, Σ) . Si Σ es

invertible, entonces
1
Z = Σ− 2 (X − μ) ∼ Np (0, Ip ) .
Donde Ip es la identidad y 0 es el vector cero en Rp . Note la similaridad con el proceso de
estandarización univariada.
8. Si X ∼ Np (μ, Σ) , entonces la Función Generadora de Momentos del vector X está dada por:

1
MX (t) = exp t μ + t Σ t ,
2
para t ∈ Rp .
9. Matrı́z
! de Covarianzas
" común. Sean X1 , X2 , · · · , Xn vectores aleatorios en Rp tal que Xj ∼
Np μj , Σ entonces
# n # n $ $

V 1 = c 1 X 1 + · · · + c n X n ∼ Np ci μ i , c2i Σ .
i=1 i=1
Además, si V2 = b1 X1 + · · · + bn Xn , entonces V1 y V2 tienen distribución conjunta normal

multivariada con vector de medias
⎛ n ⎞
ci μ i
⎜ i=1 ⎟
⎜ ⎟
μ = ⎜− − − − − ⎟
⎝ n ⎠
bi μ i
i=1
y matrı́z de covarianzas
⎛ ⎞

n
⎜ c2i Σ
(b c) Σ ⎟
⎜ i=1 ⎟
Σ V1 , V2 =⎜
⎜ n ⎟
⎟
⎝ 2 ⎠
(b c) Σ bi Σ
i=1

n
Las combinaciones aleatorias V1 y V2 son estadı́sticamente independientes, si b c = c i bi =
i=1
0.
10. Sea X ∼ Np (μ, Σ) con Σ definida positiva. Entonces:
(X − μ) Σ−1 (X − μ) ∼ χ2 (p) .
Ejemplo 4.2.1. Sea X ∼ Np (μ , Σ) y a = (0, 0, · · · , 1, 0, · · · , 0) cero en la i-esima componente.

Se tiene que a X = Xi y a μ = μi .Además, a Σ a = σi i . Entonces, a X ∼ N (μi , σi i ) . La
distribución de la i-ésima componente de X es normal univariada.
Ejemplo 4.2.2. Sea X ∈ R4 tal que X ∼ N4 (μ, Σ) , donde
⎞ ⎛ ⎛ ⎞ ⎛ ⎞
X1 2 7 3 −3 2
⎜X 2 ⎟ ⎜−1⎟ ⎜3 6 0 0⎟
X=⎜ ⎟ ⎜ ⎟ ⎜
⎝X3 ⎠ , μ = ⎝ 3 ⎠ y Σ = ⎝−3
⎟.
0 5 −2⎠
X4 1 2 4 −2 4

1 −2 0 0 1
Note que si A = y b= , entonces
0 1 −1 3 2

X1 − 2 X2 + 1
Y =AX +b= .
X2 − X3 + 3 X4 + 2

5
De esta manera, Y ∼ N2 (μY , ΣY ) , donde μY = A μ + b = y ΣY = A Σ A =
−1
19 −24
.
−24 83
Si, a = (0, 0, 1, 0) , entonces
Y = a X = X3 ∼ N (a μ, a Σ a) = N (3, 5) .
Ahora, sea X(1) = (X1 , X4 ) . Observe que X(1) se obtiene como:

⎛ ⎞
X1
1 0 0 0 ⎜X2 ⎟ X1
(1)
X = ⎜ ⎟ = .
0 0 0 1 ⎝ X3 ⎠ X4
X4
*
(1) (1) (1) (1) 2 (1) 7 2
Entonces X ∼ N2 μ , Σ ) donde μ = y Σ = .
1 2 4
4.3. EVALUACIÓN DEL SUPUESTO DE NORMALIDAD 51
Note que el vector de medias y la matrı́z de covarianzas del vector X(1) se obtienen tomando los
elementos correspondientes de μ y Σ respectivamente.

(1) X2 (1) X1
Considere los sub-vectores X = y X = . Estos sub-vectores corresponden
X4 X3
a un reordenamiento de X , μ y Σ , de la siguiente forma:
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
X2 ⎛ (1) ⎞ μ2 −1
⎜ X4 ⎟ X ⎜ μ4 ⎟ ⎜ 1 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
Y=⎜
⎜− − − ⎟ = ⎝− − − ⎠ ,
⎟ μY =⎜ ⎟ ⎜ ⎟
⎜− − − ⎟ = ⎜ . . . ⎟ y
⎝ X1 ⎠ X(2) ⎝ μ1 ⎠ ⎝ 2 ⎠
X3 μ3 3
⎛ ⎞ ⎛ ⎞
σ2 2 σ2 4 | σ2 1 σ2 3 6 4 | 3 0 ⎛ ⎞
⎜ σ4 2 σ4 4 | σ4 1 σ4 3 ⎟ ⎜ 4 | 2 −2 ⎟ Σ 1 1 | Σ1 2
⎜ ⎟ ⎜ 4 ⎟
ΣY = ⎜
⎜−− −− | −− −−⎟ ⎜ ⎟ ⎝ ⎠
⎟ = ⎜−− −− | −− −−⎟ = − − − | − − − .
⎝ σ1 2 σ1 4 | σ1 1 σ1 3 ⎠ ⎝ 3 2 | 7 −3 ⎠ Σ2 1 | Σ2 2
σ3 2 σ3 4 | σ3 1 σ3 3 0 −2 | −3 5
Note que: ⎛ ⎞⎛ ⎞
0 1 0 0 X1 ⎛ (1) ⎞
⎜0 ⎟ ⎜ ⎟ X
0 0 1⎟ ⎜X2 ⎟ ⎝
Y=⎜
⎝1 = − − −⎠ .
0 0 0⎠ ⎝X3 ⎠
X(2)
0 0 1 0 X4
4.3. Evaluación del supuesto de normalidad

El supuesto de que un vector aleatorio X proviene de una distribución normal multivariada, es una
pieza clave en la inferencia estadı́stica. En situaciones donde el tamaño muestral es grande y las
técnicas empleadas se basan en el vector de medias X̄ o en distancias que involucren el vector de
medias muestral, el supuesto de normalidad multivariada parece no ser tan crucial. Sinembargo, la
calidad de las inferencias dependerá, en gran parte, de que tan parecida es la forma de la distribución
del vector aleatorio, de una normal multivariada.
Por esta razón tener métodos o herramientas para detectar cuando un vector de datos tienen una
distribución que se aleja de la normal, es crucial a la hora de realizar análisis posteriores. Bajo el
supuesto de normalidad multivariada, cualquier combinación lineal de las componentes del vector es
una variable aleatoria normal univariada y los contornos de la distribución multivariada son elipsoides.
En este orden de ideas, algunos pasos previos que pueden dar indicios acerca de la normalidaqd
multivariada o la no-normalidad son:
1. ¿Las distribuciones marginales del vector X parecen comportarse como normales univariadas?
2. ¿La distribución de alguna combinación lineal de X parece no ser normal univariada?

3. Si se elaboran gráficos de dispersión por pares, ¿alguno de ellos parece no mostrar un compor-
tamiento elı́ptico?
4. Se evidencia la presencia de datos atı́picos, ya sea a nivel marginal o bivariado?
Por lo general, cuando se quiere indagar sobre el supuesto de normalidad multivariada, en la mayorı́a
de los casos, el análisis se concentra en una o dos dimensiones, ya que la construcción de pruebas de
normalidad en mas dimensiones, puede ser dificil y en algunos casos, los análisis derivados de ellas
pueden ser equivocados. Afortunadamente, en la práctica, no es frecuente encontrar conjuntos de
datos que sean normales en dimensiones bajas y no lo sean en dimensiones altas.
4.3.1. Evaluación de normalidad a nivel marginal

A nivel univariado, los histogramas para tamaños de muestra n > 25 y los diagramas de puntos para
n pequeño, son más o menos útiles para detectar alejamientos de simetrı́a (una cola parece ser mucho
mayor que la otra). Es posible comprobar si un histograma es razonablemente simétrico, realizando
un breve conteo de observaciones en ciertos intervalos.
Suponga que se tiene un vector aleatorio X = (X1 , · · · , Xp ), con vector de medias μ = (μ1 , · · · , μp )
y matriz de covarianzas Σ = [(σij )].
Si Xi tiene una distribución normal univariada, entonces:
√ √
P (Xi ∈ (μi − σii , μi + σii ) = 0.68269 ,
√ √
P (Xi ∈ (μi − 2 σii , μi + 2 σii ) = 0.9545 ,
√ √
P (Xi ∈ (μi − 3 σii , μi + 3 σii ) = 0.9973 .
Si se toma una muestra aleatoria X1 , · · · , Xn de la distribución del vector aleatorio X, entonces,

para la variable Xi se espera que la proporción de observaciones Pi1 en la muestra que están en en el
√ √
intervalo (x̄i − sii , x̄i + sii ) esté cerca a 0.68269, la proporción de observaciones Pi2 en el intervalo
√ √
(x̄i − 2 sii , x̄i + 2 sii ) esté cerca a 0.9545 y la proporción de observaciones Pi3 en el intervalo
√ √
(x̄i − 3 sii , x̄i + 3 sii ) esté cerca a 0.9973.
Recujerde que si X ∼ b(n, p) y p̂ es el MLE para p, se garantiza que:
# / $
p̂ (1 − p̂)
P |p̂ − p| < 3 ≈ 1.
n
Entonces, para la variable Xi , observar valores de P̂i1 o de P̂i2 tales que:
- - /
- - (0.68269)(0.31731) 1.3963
-P̂i1 − 0.68269- > 3 = √
n n
o
- - /
- - (0.9545)(0.0455) 0.6252
-P̂i2 − 0.9545- > 3 = √ ,
n n
es evidencia de que la i-ésima caracterı́stica no se comporta normalmente. Cuando estas proporcio-
nes son muy pequeñas, se puede intuir que la distribución tiene colas más largas que la normal. El
problema con este proceso es que aunque podamos verificar que a nivel univariado, se cumple la
condición antes descrita, esto no garantiza la normalidad multivariada.
Otra manera de identificar si el supuesto de normalidad se cumple a nivel univariado, es el uso

del gráfico Q − Q plot. Estos gráficos no solo son aplicables a variables normales, sino a cualquier
otra distribución de probabilidad. La idea es graficar los cuantiles muestrales versus los respectivos
cuantiles de la distribución que se espera (en este caso una normal univariada). Si en efecto los datos
muestrales provienen de una distribución normal, el gráfico debe mostrar una tendencia de los puntos
en linea recta con inclinación de 45o ; es decir, este comportamiento en el Q − Q plot, es una señal
de que el supuesto de normalidad es razonable. La importancia de detectar la no-normalidad, es que
a veces es posible corregirla.
Suponga que x1i , x2i , · · · xni representan n observaciones de una sola caracterı́stica Xi .
Sean x(1) , x(2) , · · · x(n) los estadı́sticos de orden de la muestra. Si todos los x(i) son diferentes,
exactamente i observaciones son menores o iguales a x(i) (lo cual es aproximadamente cierto si las
observaciones provienen de una distribución continua, un supuesto muy usual). La proporción ni de
i− 12
la muestra que está a la izquierda de x(i) es a veces aproximada por n
(lo cual constituye un factor
i− 38
de corrección). Algunos autores proponen cambiarlo por n+ 14
. Si Z ∼ N (0, 1) entonces:
0 q(i) 1
1 ξ2 i− 2
P (Z ≤ q(i) ) = exp − dξ = .
−ı́nf 2π 2 n
Si las observaciones provienen de una distribución normal N (μ, σ 2 ), se espera que el gráfico de los
pares (μ + σ q(i) , x(i) ) sea aproximadamente una lı́nea recta y por lo tanto σ q(i) + μ estará muy
cerca del cuantil muestral esperado. Si los parámetros μ y σ 2 son desconocidos, pueden usarse los
estimadores MLE, x̄ y 2 y graficar los pares (x̄ + s q(i) , x(i) ).
Un procedimiento más adecuado consiste en graficar los pares (σ m(i) + μ, x(i) ), donde m(i) = E[Z(i) ]
es el valor esperado del i-ésimo estadı́stico de orden en una muestra de tamaño n de una normal
estándar.
El Q-Q plot no es muy claro con tamaños de muestra conservadores (por ejemplo n ≥ 20), ya que el
gráfico puede mostrar observaciones muy alejadas de una tendencia lineal, aún cuando se sabe que
los datos provienen de una distribución normal.
Ejemplo 4.3.1. Considere los datos sobre las utilidades de 22 compañı́as. En este caso para la
variable X1 que relaciona los ingresos con las deudas. Grafique el respectivo Q-Q plot.
xmue <- compa[,1]

n <- length(xmue)
prob <- (seq(1:n)-0.5)/n
vcuan <- as.numeric(quantile(xmue,prob))*(var(xmue))^0.5 + mean(xmue)
mues <- sort(xmue)
plot(vcuan,mues)
cor(vcuan,mues)
0.9982303
Figura 4.2: Q-Q Plot para Ind/Deuda
El respectivo gráfico se muestra en la figura 4.2. Usando la función qqnorm:
mx <- mean(xmue)
sdx <- sqrt(var(xmue))
xn <- (xmue-mx)/sdx
qqnorm(xn)
El gráfico se muestra en la figura 4.3
Ejemplo 4.3.2. Considere las tasas anuales de retorno promedio (incluı́dos los dividendos) de la
industria Dow-Jones para los años 1963 a 1972. Estas tasas fueron multiplpicadas por 100. Los datos
son:
20.6, 18.7, 14.2, −15.7, 19.0, 7.7, −11.6, 8.8, 9.8, 18.2. Construya un Q-Q plot para estas tasas. Comen-
te acerca del supuesto de normalidad.
En SAS
DATA UNO;
INPUT TASA @@;
CARDS;
20.6 18.7 14.2 -15.7 19.0
7.7 -11.6 8.8 9.8 18.2
;
RUN;
PROC MEANS DATA=UNO;

VAR TASA;
RUN;
Figura 4.3: Q-Q Plot para Ind/Deuda con qqnorm
PROC SORT DATA=UNO;

BY TASA;
RUN;
DATA UNO;
SET UNO;
TASAESTA=(TASA-8.97)/12.811;
RUN;
PROC IML;
USE UNO;
READ ALL INTO X;
AUX=(1:10)‘;
XAU=DO(-1.8, 1.8, 0.38)‘;
YAU=XAU;
PROB=(AUX-0.5)/10; | Variable TASA
QUANTIL=PROBIT(PROB); |
MAT=QUANTIL||X[,2]||XAU||YAU; | Media Dev tip
CREATE DATOS FROM MAT [COLNAME={QNORM TASAEST XAU YAU}]; |
APPEND FROM MAT; | 8.9700000 12.8111974
QUIT; |
PROC GPLOT DATA=DATOS;

PLOT TASAEST*QNORM=1 YAU*XAU=2/OVERLAY;
symbol1 v=dot i=none c=black;
symbol2 v=point i=rl c=green;
RUN;
_____________________________________________________________________________________
En R
y <- c(20.6, 18.7, 14.2, -15.7, 19.0, 7.7, -11.6, 8.8, 9.8, 18.2)
my <- mean(y)
sdy <- sqrt(var(y))
yn <- (y-my)/sdy
qqnorm(yn)
Figura 4.4: Q-Q plot usando SAS y R
Los gráficos muestran poca evidencia de que las tasas de retorno se comporten de manera normal.
La linealidad del Q-Q plot puede evaluarse al calcular el coeficiente de correlación de los puntos
(q(i) , x(i) ). Este se obtiene como:
n !
"! "
x(j) − x̄ q(j) − q̄
i=1
rQ = / / .
!
n "2 n !
"2
x(j) − x̄ q(j) − q̄
i=1 i=1
Se rechaza la hipótesis nula de que las observaciones son normales si
rQ < rQ (α) .
Los cuantiles para la distribución de rQ se obtienen de la tabla mostrada en la figura ??.

Figura 4.5: Cuantiles para Correlación del Q-Q plot

Notas Curso Introducci On Al An Alisis Multivariado: P Rof Esor: Ren of Icina: 43 320 Correo: Riral@unal - Edu.co

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Notas Curso Introducci On Al An Alisis Multivariado: P Rof Esor: Ren of Icina: 43 320 Correo: Riral@unal - Edu.co

Uploaded by

Copyright:

Available Formats

1

Notas Curso Introducción al Análisis Multivariado

2) Organización y presentación de datos

3) Vectores y Matrices aleatorias

6) Inferencia para Medias

8) Análisis de Cluster y Clasiﬁcación

Entre los usos del Análisis Multivariado se encuentran:

2. Escala Ordinal. Además de la relación de igualdad establecida en la escala nominal, implica

3. Escala de Intervalo Además de la relación de igualdad de las escalas anteriores, se caracteriza

1.2. Repaso de Álgebra Lineal

Es usual indicar que el vector a es un vector en Rn , o equivalentemente a ∈ Rn .

2. El vector unidad o vector de unos de orden n se deﬁne como:

3. Sean a y b vectores en Rn tales que a = (a1 , . . . , an ) y b = (b1 , . . . , bn ). El producto

5. La multiplicación de un vector por un escalar cambia su norma. En otras palabras, si a es un

Si |c| > 1, a se expande. Si 0 < |c| < 1, a se contrae.

6. Sean a = (a1 , . . . , an ) y b = (b1 , . . . , bn ) dos vectores en Rn y c y d dos constantes reales.

8. Sean a y b dos vectores en Rn . Se dice que a y b son Ortogonales si a b = 0.

19. Una matriz cuadrada T de orden n se dice Ortogonal si T T = T T = In es decir T = T −1 ;

donde Aij es la matrı́z cuadrada de orden (n − 1) que se obtiene al eliminar de A la ﬁla i y la

23. Sean A y B matrices cuadradas de orden n y c ∈ R. Entonces:

Si A es simétrica, todos sus valores propios son reales.

25. Sean A y B matrices cuadradas de orden n. Entonces:

26. Sea A una matrı́z simétrica de orden n. Entonces:

donde ei es el vector propio normalizado de A asociado al valor propio λi , para i = 1, . . . , n.

Organización y presentación de datos

2.1. Organización de datos

La matriz de datos X esta dada por:

2.2. Estadı́sticos descriptivos (o de resumen)

Deﬁnición 2.2.2. Para j ﬁjo, con j = 1, 2, · · · , p, se tiene un conjunto de n mediciones (corres-

Por conveniencia, la varianza muestra de la variable j se denota s2j = sjj , j = 1, . . . , p. La raı́z

Nota: Si i = j, entonces sii = s2i , la varianza muestral de la variable xi .

Deﬁnición 2.2.4. Para i = j, con i, j = 1, 2, · · · , p, se deﬁne la Correlación muestral entre las

ρij no depende de las unidades de medida.

ρij es la covarianza muestral de las observaciones estandarizadas.

Si ρij > 0, se tiene una asociación lineal positiva.

VMATRI PROM HORAS

mean sd IQR 0% 25% 50% 75% 100% n

> numSummary(xm, statistics=c("mean", "sd", "IQR","quantiles", "skewness", "kurtosis"),

mean sd IQR skewness kurtosis 0% 25% 50% 75% 100% n

VMATRI PROM HORAS

> cor(xm, use="complete", method="pearson")

VMATRI PROM HORAS

> cor(xm, use="complete", method="spearman")

VMATRI PROM HORAS

> cor(xm, use="complete", method="kendall")

VMATRI PROM HORAS

> partial.cor(xm, use="complete")

Number of observations: 1000

2.3. Forma matricial de los estadı́sticos de resumen

Deﬁnición 2.3.1. El vector de medias muestrales está dado por:

x̄ = (x̄1 , · · · , x̄p ) .

Deﬁnición 2.3.2. La matriz de varianzas y covarianzas muestrales está dada por:

Deﬁnición 2.3.3. La matriz de correlaciones muestrales está dada por:

2.4. Representaciones Gráﬁcas

Figura 2.1: Variables Acopla

Histogramas Histogramas para las variables VMATRI, PROM y HORAS y un diagrama de

Los gráﬁcos resultantes se muestran en la ﬁgura 2.2.

Figura 2.2: Histogramas y diagrama de barras

> par(mfrow=c(2,3), new=T)

Los gráﬁcos resultantes se muestran en la ﬁgura 2.3.

Figura 2.3: Box Plots

Gráﬁcos bidimensionales y tridimensionales Diagramas de dispersión. Los siguientes coman-

vg1 <- layout(rbind(c(1,1,2,2), c(0,3,3,0)))

Deﬁnición 2.2.4. Para i = j, con i, j = 1, 2, · · · , p, se deﬁne la Correlación muestral entre las