You are on page 1of 57

1

Notas Curso Introducción al Análisis Multivariado


P rof esor : René Iral Palomino
Of icina : 43 − 320
Correo : riral@unal.edu.co

Contenido

1) Introducción

2) Organización y presentación de datos

3) Vectores y Matrices aleatorias

4) Normalidad Multivariada

5) Distribuciones Muestrales

6) Inferencia para Medias

7) Componentes principales

8) Análisis de Cluster y Clasificación

Evaluación

P rueba P1 P2 P3 P4
P orcentaje 25 % 25 % 25 % 25 %
Capı́tulo 1

Introducción

1.1. Motivación
La investigación cientı́fica es un proceso de aprendizaje iterativo. Los objetivos asociados a la expli-
cación de un fenómeno de interés (tales como enfermedades progresivas, comportamiento del clima,
comportamiento de la bolsa de valores, funcionamiento del cerebro, etc.) son probados a través del
análisis u observación de los datos. Dependiento de la complejidad de muchos fenómenos, es nece-
sario recolectar mayor cantidad de información, la cual es presentada a través de diversos tipos de
caracterı́sticas o variables relacionadas con el fenómeno de interés.

Con el fin de obtener información de datos recolectados de esta forma, es pertinente usar métodos
estadı́sticos que tengan en cuenta no solo la posible correlación entre las observaciones sino tambien
el hecho de que están recolectados en forma vectorial. Este tipo de técnicas están basadas principal-
mente en importantes resultados del álgebra lineal y la estadı́stica.

Definición 1.1.1. El conjunto de técnicas y métodos para estudiar y describir vectores de variables
aleatorias posiblemente correlacionadas se conoce con el nombre de Análisis Multivariado.

El análisis multivariado con sus ventajas y limitaciones ha encontrado una ámplia aceptación en
campos tan diversos como la biologı́a, la medicina, la epidemiologı́a, ingenierı́a de control, las cien-
cias sociales, entre otras.

Esto se debe a que en la investigación frecuentemente se trata de cuantificar la forma en que un con-
junto de variables de interés se relacionan con la presencia o ausencia de una caracterı́stica especı́fica
(por ejemplo una enfermedad mental, afección cardiaca, el rendimiento académico, el deterioro en el
tiempo de un material, la afectividad de un método o un medicamento).

El análisis multivarido constituye pues una poderosa y flexible herramienta estadı́stica que, gracias al
vertiginoso avance en las ciencias computacionales, es posible implementar en la práctica con relativa
facilidad, su vigencia es indiscutible, pero al igual que todas las demás técnicas estadı́sticas debe
usarse con precaución y despues de entender bien el problema que se tiene a mano.

2
1.1. MOTIVACIÓN 3

Entre los usos del Análisis Multivariado se encuentran:

1. Modelamiento

2. Reducción de datos.

3. Agrupamiento.

4. Clasificación.

5. Dependencia.

6. Predicción.

7. Inferencia.

Los valores asociados a las caracterı́sticas de interés que asumimos están relacionadas al fenómeno
de estudio, son observadas o medidas en forma diferente. Estas formas se conocen como niveles o
escalas de medición. La mayorı́a de estos valores puede ser situado en alguna de las siguientes escalas:
Nominal, Ordinal, de Intervalo y de Razón. El desarrollo de reglas sistemáticas y de unidades signifi-
cativas de medida para identificar o cuantificar las observaciones empı́ricas es llamado Escalamiento.

La clasificación más común distingue cuatro conjuntos de reglas básicas, las cuales producen cuatro
escalas de medida.

1. Escala Nominal. Implica una relación de identidad entre el sistema de números y el sistema
empı́rico objeto de medición. Los números empleados se consideran etiquetas asignadas a los
objetos con el fin de clasificarlos. Tiene una naturaleza no métrica (por ejemplo, la raza, el
género, credo religioso, tipo de sangre, etc.)

2. Escala Ordinal. Además de la relación de igualdad establecida en la escala nominal, implica


una relación de orden que se presenta tanto en el sistema numérico como en el empı́rico. Los
números que se asignan a los atributos deben preservar el orden de la caracterı́stica que se
mide. El tipo de datos que resulta tiene caracterı́stica no métrica (por ejemplo, categorı́a de un
profesor, calificación en una prueba: a b c d e, estrato socioeconómico, etc.)

3. Escala de Intervalo Además de la relación de igualdad de las escalas anteriores, se caracteriza


porque la diferencia entre los números corresponden a la diferencia entre la propiedad medida
sobre los objetos y por lo tanto tienen una naturaleza métrica. En este tipo de escalas es
necesario precisar un origen o punto çerorespecto al cual la medida tiene sentido. (por ejemplo
Temperatura, altura, tiempo de duración, etc.)

4. De razón Similar a la escala anterior, solo que implica un punto de origen fijo o natural: el
cero absoluto. Tambien de naturaleza métrica (por ejemplo, el peso, la talla, la edad, etc.)
4 CAPÍTULO 1. INTRODUCCIÓN

1.2. Repaso de Álgebra Lineal


1. Un arreglo de n números reales a1 , . . . , an se llama vector y se denota
⎛ ⎞
a1
⎜ ⎟
a = ⎝ ... ⎠ o a = (a1 , . . . , an ) .
an

Es usual indicar que el vector a es un vector en Rn , o equivalentemente a ∈ Rn .

2. El vector unidad o vector de unos de orden n se define como:

1n = (1, . . . , 1) .


n componentes

3. Sean a y b vectores en Rn tales que a = (a1 , . . . , an ) y b = (b1 , . . . , bn ). El producto


interno entre a y b, denotado a • b, se define como:


n
a • b = a b = a1 b1 + . . . + an bn = ai b i .
i=1

4. Sea a un vector en Rn . La Norma del vector a, la cual se denota a, se define como:

a = a a = a21 + . . . + a2n .

5. La multiplicación de un vector por un escalar cambia su norma. En otras palabras, si a es un


vector en Rn y c una constante real:

c a = |c| a .

Si |c| > 1, a se expande. Si 0 < |c| < 1, a se contrae.

6. Sean a = (a1 , . . . , an ) y b = (b1 , . . . , bn ) dos vectores en Rn y c y d dos constantes reales.


Entonces ⎛ ⎞
c a1 , +, d b1
⎜ .. ⎟
ca + db = ⎝ . ⎠ .
c an + d bn

7. Sean a y b dos vectores en Rn . El ángulo θ entre estos vectores está dado por:

a b
cos θ =  .
a b

8. Sean a y b dos vectores en Rn . Se dice que a y b son Ortogonales si a b = 0.


1.2. REPASO DE ÁLGEBRA LINEAL 5

9. Una matrı́z se puede definir como un arreglo rectangular de números en filas y columnas.
Usualmente se usan letras mayúsculas para nombrar una matriz con un subı́ndice que indica
la dimensión en filas y columnas. Por ejemplo, una matrı́z A de n filas y p columnas, se denota
An×p , y está dada por: ⎛ ⎞
a11 · · · a1p
⎜ a21 · · · a2p ⎟
⎜ ⎟
A = ⎜ .. .. ⎟
⎝ . . ⎠
an1 · · · anp

Es usual utilizar la notación A = [(aij )]n×p o An×p = [(aij )], para una matrı́z A arbitraria de
orden n × p.
10. Una matrı́z An×p se dice Cuadrada si n = p (cuadrada de orden n). Un caso especial de
matrices cuadradas es la matrı́z Identidad. La matrı́z identidad de orden n se denota In y está
dada por: ⎛ ⎞
1 0
⎜ ⎟
In = ⎝ . . . ⎠
0 1

11. Sea A una matrı́z cuadrada de orden n. Si todas las componentes de la matrı́z A son iguales a
uno, obtenemos la matrı́z de unos, la cual se denota Jn .
12. Una matrı́z cuadrada A de orden n se dice Diagonal si es de la forma:
⎛ ⎞
a1 0
⎜ ... ⎟
An×n = ⎝ ⎠
0 an

13. Sea A = [(aij )] una matriz Cuadrada de orden n. Se puede construir una matrı́z diagonal con
los elementos de la diagonal de A. Dicha matrı́z es notada Diag(A) y está dada por:
⎛ ⎞
a11 0
⎜ ... ⎟
Diag(A) = ⎝ ⎠
0 ann

14. Sean A = [(aij )]n× p y B = [(bij )]n× p matrices. La suma o Resta de las matrices A y B es una
nueva matriz C, la cual está dada por:
⎛ ⎞
a11 ± b11 · · · a1p ± b1p
⎜ .. .. ⎟
C = A ± B = [(aij ± bij )]n×p = ⎝ . . ⎠
an1 ± bn1 · · · anp ± bnp

15. Sean A = [(aij )]n× p y B = [(bij )]p× k matrices. El producto de las matrices A y B es una nueva
matriz C la cual está dada por: C = A B = [(cij )]n×k , donde la entrada cij de C está dada por:
p

cij = ai1 b1j + · · · + aip bjp = ail blj .
l=1
6 CAPÍTULO 1. INTRODUCCIÓN

Observe que para que el producto AB sea posible, el número de columnas de A debe ser igual
al número de filas de B. Si A y B son matrices cuadradas de orden n ambos productos A B y
B A pueden realizarse, pero en general AB = BA.

16. Sea A = [(aij )] una matriz de orden n × p. La Transpuesta de A es una matrı́z de orden p × n
la cual se denota AT o A y está dada por A = [(aji )] (las filas de A son las columnas de A ).
Si A = A diremos que A es Simétrica.

17. Sea A una matrı́z de orden n × p. Si existe una matriz B de orden p × n tal que A B = In , se
dice que B es la Inversa a derecha de la matrı́z A. Análogamente, si existe una matriz C de
orden p × n tal que C A = Ip , se dice C es la Inversa a izquierda de la matrı́z A.

18. Sea A una matrı́z cuadrada de orden n. Si existe una matrı́z cuadrada B de orden n tal que
A B = B A = In , se dice que B es la Inversa de A, la cual se denota A−1 . Esta matrı́z A−1
cumple que (A )−1 = (A−1 ) .

19. Una matriz cuadrada T de orden n se dice Ortogonal si T  T = T T  = In es decir T  = T −1 ;


esto implica que las columnas de T son perpendiculares y de norma igual a uno.

20. Sean X1 , . . . , XK k vectores en Rn . Se dice que estos k vectores son Linealmente Indepen-
dientes si el sistema de ecuaciones c1 X1 +· · ·+ck Xk = 0 tiene única solución c1 = · · · = ck = 0,
para ci ∈ R, i = 1, 2, · · · , k. De otra manera, Si denotamos X la matriz cuyas columnas son
X1 , · · · , XK , y haciendo c = (c1 , · · · , ck ), se dice que los k vectores X1 , . . . , XK son lineal-
mente independientes, si el sistema X c = 0 tiene solución única c = 0, donde 0 = (0, · · · , 0).

21. Sea A una matrı́z cuadrada de orden n. Se dice que λ es un valor propio de A asociado al vector
propio x, si A x = λ x. Al dividir el vector propio x por su norma obtenemos un vector, el cual
se denota e, es decir, e = √ x .
x

22. Sea A = [(aij )] una matrı́z cuadrada de orden n. El determinante de A, el cual se denota |A|,
se obtiene como:
n
|A| = aij |Aij | (−1)i+j ;
j=1

donde Aij es la matrı́z cuadrada de orden (n − 1) que se obtiene al eliminar de A la fila i y la


columna j. Si k = 1, |A| = a11 .

23. Sean A y B matrices cuadradas de orden n y c ∈ R. Entonces:

|A| = |A |.
|A B| = |A| |B|.
|c A| = cn |A|, donde c ∈ R.
n
Si λ1 , · · · , λn son los n valores propios de A, entonces |A| = i=1 λi .
A es invertible, entonces |A| = 0; esto equivale a decir que todos los valores propios de A
son diferentes de cero.
1
si A−1 existe, entonces |A−1 | = .
|A|
1.2. REPASO DE ÁLGEBRA LINEAL 7

Si A es simétrica, todos sus valores propios son reales.


Si A = [(aij )] es una matrı́z cuadrada de orden 2 invertible, entonces
 
−1 1 a22 −a12
A = .
|A| −a21 a11
24. Sea A = [(aij )] una matrı́z cuadrada de orden n. La traza de A se denota tr(A) y se obtiene
como:
n
tr(A) = aii .
i=1

25. Sean A y B matrices cuadradas de orden n. Entonces:


tr(c A) = c tr(A).
tr(A ± B) = tr(A) ± tr(B).
tr(A B) = tr(B A).
n
tr(A) = λi , donde λ1 , · · · , λn son los n valores propios de A.
i=1
Si B −1 existe, entonces tr(B −1 A B) = tr(A).
n  n
tr(A A ) = a2ij .
i=1 j=1

26. Sea A una matrı́z simétrica de orden n. Entonces:



n
A= λ1 e1 e1 + ··· + λn en en = λi ei ei ;
i=1

donde ei es el vector propio normalizado de A asociado al valor propio λi , para i = 1, . . . , n.


Este resultado se conoce como Descomposición Espectral de la Matrı́z A.
27. Sea A una matrı́z simétrica de orden n. Se dice que A es Semidefinida positiva si para todo
vector x en Rn : x A x ≥ 0. Si x A x > 0, para todo x en Rn no nulo, se dice que A es Definida
Positiva (por notación se escribe A es d.p.).
28. Si una matrı́z A es d.p., todos sus valores propios son positivos, lo que equivale a decir que su
determinante es diferente de cero, lo que equivale a decir que tiene inversa.
29. Sea A una matriz cuadrada de orden n d.p. Por el teorema de descomposición espectral se tiene
que
n
A= λi ei ei .
i=1
Sea P la matrı́z de vectores propios normalizados, es decir, P = [e1 , · · · , en ], entonces
A = P Λ P , donde P P = P P = In y Λ es una matrı́z diagonal que contiene en su diagonal
los valores propios de A. Como A es invertible A−1 = P Λ−1 P . La Raı́z Cuadrada de la
1
matrı́z A, la cual se denota A 2 , se obtiene como:
1 1
A 2 = P Λ 2 P ,
1
donde Λ 2 es una matrı́z diagonal que contiene las raı́ces cuadradas de los valores propios de A.
Capı́tulo 2

Organización y presentación de datos

2.1. Organización de datos

En general, los datos multivariados aparecen cuando se recolectan un número p ≥ 2 de variables. Los
valores de estas variables se miden u observan para todos los sujetos o unidades experimentales. Por
notación, De ahora en adelante el valor de la k-ésima variable que se registró en el j-ésimo sujeto, se
denotará xjk . De esta manera, si se tienen n sujetos y p variables, esta información se puede organizar
en una matriz que se conoce como matriz de datos:
⎛ ⎞
x11 x12 · · · x1p
⎜ .. .. ⎟ .
Xn× p =⎝ . . ⎠
x1n xn2 · · · xnp

Ejemplo 2.1.1. Se realizó una encuesta a 1000 estudiantes de cierta universidad. Se recopilo in-
formación acerca del Valor de la Matrı́cula, el Promedio obtenido en el semestre anterior, las horas
dedicadas semalamente a estudiar, el Estrato socioeconómico, si el estudiante trabaja o no y la fa-
cultad a la cual pertenece.

La matriz de datos X esta dada por:


⎛ ⎞
602089 3.2 23
4 SI CIEN CIAS
⎜645860 3.3 32
4 SI M IN AS ⎟
⎜ ⎟
⎜230028 3.5 4 N O AGRON OM IA⎟
28
⎜ ⎟
⎜560515 4.2 24
3 NO M IN AS ⎟
⎜ ⎟
⎜536309 3.2 28
3 SI CIEN CIAS ⎟
⎜ ⎟
X = ⎜673112 3.3 33
4 NO M IN AS ⎟
⎜ ⎟
⎜ .. .. ..
.. .. .. ⎟
⎜ . . .
. . . ⎟
⎜ ⎟
⎜663143 4.0 44 3 N O M IN AS ⎟
⎜ ⎟
⎝505265 3.0 41 3 N O M IN AS ⎠
589762 3.9 38 3 SI M IN AS

8
2.2. ESTADÍSTICOS DESCRIPTIVOS (O DE RESUMEN) 9

2.2. Estadı́sticos descriptivos (o de resumen)


Debido a que las bases de datos son extensas, es dificil capturar visualmente información importante.
Es por esto que se hace necesario usar medidas de resumen que den una idea de la localización, la
variación y la asociación lineal de las distintas variables bajo estudio.

Para definir algunas de las medidas básicas de tendencia, variabilidad y asociación entre variables,
se asume inicialmente que las carácterı́sticas de interés son obtenidas de los sujetos u objetos prin-
cipalmente, a través de un proceso de medición. Suponga que p caracterı́sticas son medidas sobre
n sujetos u objetos. La información resultante es resumida en una matrı́z (usualmente denominada
Matrı́z de Datos) del tipo relacionado anteriormente.
Definición 2.2.1. Para j fijo, con j = 1, 2, · · · , p, se tiene un conjunto de n mediciones x1j , x2j , · · · , xnj
(correspondientes a n sujetos u objetos). La Media muestral de estas mediciones se define como:

1
n
x̄j = xkj
n k=1

Definición 2.2.2. Para j fijo, con j = 1, 2, · · · , p, se tiene un conjunto de n mediciones (corres-


pondientes a los n sujetos u objetos): x1j , x2j , · · · , xnj . la Varianza muestral de estas mediciones se
define como:
1
n
2
sj,n = (xkj − x̄j )2
n k=1

1
n
s2j = (xkj − x̄j )2
n − 1 k=1

Por conveniencia, la varianza muestra de la variable j se denota s2j = sjj , j = 1, . . . , p. La raı́z


cuadrada de s2j , sj , se conoce como Desviación estandar muestral (está en las mismas unidades
en las cuales fueron tomadas las observaciones.)
Definición 2.2.3. Para i = j, con i, j = 1, 2, · · · , p, se define la Covarianza muestral entre las
variables xi y xj como:

1
n
sij = (xki − x̄i )(xkj − x̄j ) ; para i, j = 1, . . . , p
n k=1

Nota: Si i = j, entonces sii = s2i , la varianza muestral de la variable xi .

Definición 2.2.4. Para i = j, con i, j = 1, 2, · · · , p, se define la Correlación muestral entre las


variables xi y xj como:
sij
ρij = √ √ ; para i, j = 1, . . . , p
sii sjj

Propiedades.
10 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

ρij no depende de las unidades de medida.

ρij = ρji .

ρij es la covarianza muestral de las observaciones estandarizadas.

−1 ≤ ρij ≤ 1.

Si ρij > 0, se tiene una asociación lineal positiva.

Los valores de ρij permanecen invariables si las medidas de la i-ésima variable se cambian por
yki = a xki + b y los de la j-ésima variable se cambian por ykj = c xkj + d, siempre y cuando a
y c tengan el mismo signo, con a, c ∈ R.
Ejemplo 2.2.1. Con los datos del ejemplo 1, usaremos una matriz de datos que contenga información
solo de las variables Valor de la Matrı́cula, el Promedio obtenido en el semestre anterior y las horas
dedicadas semanalmente a estudiar.
Usando el paquete R se obtienen los siguientes resultados. Usando el paquete R, se tienen los siguien-
tes resultados (los datos de interés están en el archivo estud.txt).
> xm <-read.table(file.choose(), header=T)
> dim(xm)
[1] 1000 3
> xm[1:3,]

VMATRI PROM HORAS


1 688.091 4.1 22
2 398.030 3.6 25
3 448.689 3.6 23

> apply(xm,2,"mean")
VMATRI PROM HORAS
644.2483 3.5008 24.0980

> numSummary(xm)

mean sd IQR 0% 25% 50% 75% 100% n


VMATRI 644.2483 162.6673822 226.6377 133.508 529.6755 645.9015 756.3133 1190.64 1000
PROM 3.5008 0.3819755 0.6000 2.200 3.2000 3.5000 3.8000 4.50 1000
HORAS 24.0980 3.8417646 5.0000 13.000 22.0000 24.0000 27.0000 37.00 1000

> numSummary(xm, statistics=c("mean", "sd", "IQR","quantiles", "skewness", "kurtosis"),


quantiles=c(0,.25,.5,.75,1), type="2")

mean sd IQR skewness kurtosis 0% 25% 50% 75% 100% n


VMATRI 644.2483 162.6673822 226.6377 -0.07305390 0.015568300 133.508 529.6755 645.9015 756.3133 1190.64 1000
PROM 3.5008 0.3819755 0.6000 -0.04146165 -0.204412124 2.200 3.2000 3.5000 3.8000 4.50 1000
HORAS 24.0980 3.8417646 5.0000 0.05409766 -0.004988634 13.000 22.0000 24.0000 27.0000 37.00 1000

> var(xm)

VMATRI PROM HORAS


VMATRI 26460.677221 1.95929612 -8.36841193
PROM 1.959296 0.14590527 0.06158318
HORAS -8.368412 0.06158318 14.75915516

> cor(xm, use="complete", method="pearson")

VMATRI PROM HORAS


VMATRI 1.00000000 0.03153291 -0.01339096
PROM 0.03153291 1.00000000 0.04196584
HORAS -0.01339096 0.04196584 1.00000000
2.3. FORMA MATRICIAL DE LOS ESTADÍSTICOS DE RESUMEN 11

> cor(xm, use="complete", method="spearman")

VMATRI PROM HORAS


VMATRI 1.000000000 0.02662297 0.005603378
PROM 0.026622965 1.00000000 0.049251733
HORAS 0.005603378 0.04925173 1.000000000

> cor(xm, use="complete", method="kendall")

VMATRI PROM HORAS


VMATRI 1.000000000 0.01809467 0.003882973
PROM 0.018094667 1.00000000 0.035215698
HORAS 0.003882973 0.03521570 1.000000000

> partial.cor(xm, use="complete")

Partial correlations:
VMATRI PROM HORAS
VMATRI 0.00000 0.03213 -0.01473
PROM 0.03213 0.00000 0.04241
HORAS -0.01473 0.04241 0.00000

Number of observations: 1000

2.3. Forma matricial de los estadı́sticos de resumen


Considere nuevamente una estructura de datos presentada en forma matricial, donde las columnas
representan las variables y la filas los items objeto de las mediciones (sujetos u objetos).

Definición 2.3.1. El vector de medias muestrales está dado por:

x̄ = (x̄1 , · · · , x̄p ) .

Definición 2.3.2. La matriz de varianzas y covarianzas muestrales está dada por:


⎛ ⎞
s11 s12 · · · s1p
⎜s21 s22 · · · s2p ⎟
⎜ ⎟
Sn = ⎜ .. .. ⎟ .
⎝ . . ⎠
sp1 sp2 · · · spp

Definición 2.3.3. La matriz de correlaciones muestrales está dada por:


⎛ ⎞
1 r12 · · · r1p
⎜ .. ⎟ .
R = ⎝ ... . ⎠
rp1 rp2 · · · 1

Ejemplo 2.3.1. Para el ejemplo anterior, la forma matricial de los estadı́sticos descriptivos es la
siguiente:

⎛ ⎞
644.248
x̄ = ⎝ 3.5 ⎠
24.1
12 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

⎛ ⎞
26460.67008 1.95931 −8.36819
Sn = ⎝ 1.95931 0.14591 0.06158 ⎠
−8.36819 0.06158 14.75916
⎛ ⎞
1 0.03153 −0.01339
R = ⎝ 0.03153 1 0.04197 ⎠ .
−0.01339 0.04197 1

2.4. Representaciones Gráficas


Para el trabajo que se realizará de manera posterior y en muchos de los temas a tratar en el curso, se
usará la información relacionada con un estudio sobre Parámetros Antropométricos de la Población
Laboral Colombiana 1995. La base con la cual se trabajará tiene información de 2100 trabajadores,
de ambos sexos, de cuatro grupos etáreos, en doce ciudades, y en diferentes sectores de la actividad
económica. Los registros se refieren a la medición de 69 dimensiones corporales directas, agrupadas
en alturas en posición erecta, en posición sentado, pliegues cutáneos, perı́metros, anchuras y larguras
y la construcción de tres ( 3 ) ı́ndices. Las variables fueron codificadas como (ver figura 2.1:

Figura 2.1: Variables Acopla


2.4. REPRESENTACIONES GRÁFICAS 13

Ejemplo 2.4.1. Usando los datos del Ejemplo 2.1.1., sobre los estudiantes, relacionados con Va-
lor de Matrı́cula, Promedio semestre anterior, Horas dedicadas semanalmente a estudiar y estrato
socioeconómico.

Histogramas Histogramas para las variables VMATRI, PROM y HORAS y un diagrama de


barras para la variable ESTRATO. Algunos comandos del paquete R.

a=table(xm[,4])/1000
a

1 2 3 4 5 6
0.076 0.299 0.389 0.106 0.084 0.046

par(mfrow=c(2,2), new=T)
hist(xm[,1], col=’blue’, main=’Histograma Matricula’, xlab="V. Matricula")
hist(xm[,2], col=’cyan’, main=’Histograma Promedios’, xlab="Promedio")
hist(xm[,3], col=’green’, main=’Histograma Horas’, xlab="Horas")
barplot(table(xm[,4])/1000, ylim=c(0,0.45), xlab="Estrato", main=’Diagrama Barras Estrato’, col=c(’blue’,’red’,’yellow’,’gre

Los gráficos resultantes se muestran en la figura 2.2.

Figura 2.2: Histogramas y diagrama de barras

Box Plot

> par(mfrow=c(2,3), new=T)


> boxplot(xm[,1], xlab="V. Matricula")
> boxplot(xm[,2], xlab="Promedio")
> boxplot(xm[,3], xlab="Horas")
> boxplot(xm[,1]~ xm[,4], xlab="Estrato", main="Matricula por Estrato")
> boxplot(xm[,2]~ xm[,4], xlab="Estrato", main="Promedio por Estrato")
> boxplot(xm[,3]~ xm[,4], xlab="Estrato", main="Horas por Estrato")

Los gráficos resultantes se muestran en la figura 2.3.


14 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

Figura 2.3: Box Plots

Gráficos bidimensionales y tridimensionales Diagramas de dispersión. Los siguientes coman-


dos permiten obtener gráficos de dispersión por pares y para las tres variables. Los gráficos
resultantes se muestran en la figura 2.4

vg1 <- layout(rbind(c(1,1,2,2), c(0,3,3,0)))


plot(xm[,2],xm[,1], xlab="Promedio", ylab="Matrı́cula", type="p", pch=20)
plot(xm[,3],xm[,1], xlab="Horas", ylab="Matrı́cula", type="p", pch=20)
plot(xm[,3],xm[,2], xlab="Horas", ylab="Promedio", type="p", pch=20)
pairs(xm[,c(1,2,3)], main="Matrı́z de Dispersión", labels=c("Matricula","Promedio", "Horas"), pch=20)

Gráficos tridimensionales. Usando R se elabora un grafico de dispersión tridimensional, suando


los datos de los estudiantes. ver figura 2.5

library(rgl)
plot3d(xm[,1],xm[,3],xm[,2])
play3d(spin3d(plot3d(xm[,1],xm[,3],xm[,2])), duration=10)

Gráfico de superficies y contornos. En la figura 2.7

x=seq(-3,3,length=100)
2.4. REPRESENTACIONES GRÁFICAS 15

Figura 2.4: Gráficos de Dispersión y Matriz de Dispersión

y=seq(-3,3,length=100)
supe=function(x,y) x^2+y^2+x*y+1
z=outer(x, y, supe)
persp(x,y,z)
persp(x,y,z, phi = 30)
persp(x,y,z,theta = 30)
16 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

Figura 2.5: Graficos de dispersión Tridimensional

par(mfrow=c(1,2))
persp(x,y,z,theta = 25, phi=-10,col="cyan")
image(x,y,z)
contour(x,y,z,add=T, col="black")

x=seq(-4,4,length=100)
y=seq(-9,9,length=100)
nor_biv <- function(x,y){
p=0.1
mu1=0
mu2=0
sig1=1
sig2=3
au=2*3.1416*sig1*sig2*(1-p^{2})^{0.5}
(1/au)*exp(-(1/(2*(1-p^{2})))*(((x-mu1)/sig1)^{2}-2*p*((x-mu1)/sig1)*((y-mu2)/sig2)+((y-mu2)/sig2)^{2}))
}
z=outer(x, y, nor_biv)
persp(x,y,z,theta = 25, phi=15)

Los respectivos gráficos de una normal Bivariada se muestran en la figura 2.7.

Gráficos Múltiples
De estrellas Los siguientes comandos en R permiten obtener un gráfico de estrellas. Para
simplificarlo, se usaron solo las 11 primeras observaciones.

xm <- xm[1:11,c(1,2,3)]
colnames <-c("Matr","Prom","Horas")
stars(xm, key.labels=abbreviate(colnames), key.loc=c(8,2),
main="Grafico de Estrellas para Matricula, Promedio y Horas")

La gráfica resultante se muestra en la figura 2.8


2.4. REPRESENTACIONES GRÁFICAS 17

Figura 2.6: Superficies y contornos

Figura 2.7: Normal Bivariada

stars(xm, key.labels=abbreviate(colnames), key.loc=c(8,2),


main="Grafico de Estrellas para Matricula, Promedio y Horas",
draw.segments=T)

La gráfica resultante se muestra en la figura 2.9


Caras de Chernoff
18 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

Figura 2.8: Grafico de Estrellas

Figura 2.9: Grafico de Segmentos


2.4. REPRESENTACIONES GRÁFICAS 19

Podemos realizar este tipo de gráficos usando el paquete aplpack.

Para este paquete la función usada es faces

faces(xm[1:16,c(1,2,3)], plot.faces=T, fill=T, face.type=0)


faces(xm[1:16,c(1,2,3)], plot.faces=T, fill=T, face.type=1)
faces(xm[1:16,c(1,2,3)], plot.faces=T, fill=T, face.type=2)

Los gráficos obtenidos se muestran en la figura 2.10

Figura 2.10: Caras de Chernoff

Explicación de los parámetros. 1: altura de la cara, 2: de ancho de la cara, 3: forma de la cara,


4: altura de la boca, 5: ancho de la boca, 6: curva de la sonrisa, 7: altura de los ojos, 8: ancho
de los ojos, 9: altura del pelo, 10: ancho del pelo, 11: estilo del cabello, 12: altura de la nariz,
13: ancho de la nariz, 14: ancho de las orejas, 15: altura de las orejas.

Cluster

Se tiene información sobre las utilidades de 22 compañı́as públicas en estados Unidos en 1975.
Nueve variables son registradas: X1 : ingreso/deduda, X2 : Tasa de retorno de capital, X3 : Costo
per-cápita en el lugar, X4 : Factor de carga anual, X5 : Crecimiento per-cápitade la demanda
de 1974 a 1975, X6 : Ventas (uso per-cápita de KWH anual, X7 : Porcentaje nuclear, X8 : Costo
20 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

total de combustible (centavos por KWH) y Lugar. Los datos se muestran a continuación.

X1 X2 X3 X4 X5 X6 X7 X8 Lugar
1.06 9.2 151 54.4 1.6 9077 0.0 0.628 Arizona
0.89 10.3 202 57.9 2.2 5088 25.3 1.555 Boston
1.43 15.4 113 53.0 3.4 9212 0.0 1.058 Central
1.02 11.2 168 56.0 0.3 6423 34.3 0.700 Common
1.49 8.8 192 51.2 1.0 3300 15.6 2.044 Consolid
1.32 13.5 111 60.0 -2.2 11127 22.5 1.241 Florida
1.22 12.2 175 67.6 2.2 7642 0.0 1.652 Hawaiian
1.10 9.2 245 57.0 3.3 13082 0.0 0.309 Idaho
1.34 13.0 168 60.4 7.2 8406 0.0 0.862 Kentucky
1.12 12.4 197 53.0 2.7 6455 39.2 0.623 Madison
0.75 7.5 173 51.5 6.5 17441 0.0 0.768 Nevada
1.13 10.9 178 62.0 3.7 6154 0.0 1.897 NewEngla
1.15 12.7 199 53.7 6.4 7179 50.2 0.527 Northern
1.09 12.0 96 49.8 1.4 9673 0.0 0.588 Oklahoma
0.96 7.6 164 62.2 -0.1 6468 0.9 1.400 Pacific
1.16 9.9 252 56.0 9.2 15991 0.0 0.620 Puget
0.76 6.4 136 61.9 9.0 5714 8.3 1.920 SanDiego
1.05 12.6 150 56.7 2.7 10140 0.0 1.108 Southern
1.16 11.7 104 54.0 -2.1 13507 0.0 0.636 Texas
1.20 11.8 148 59.9 3.5 7287 41.1 0.702 Wisconsi
1.04 8.6 204 61.0 3.5 6650 0.0 2.116 United
1.07 9.3 174 54.3 5.9 10093 26.6 1.306 Virginia
Agrupando las observaciones

com <- compa[,1:8]


d <- dist(com, method = "euclidean")
hc <- hclust(d,method="complete")
plot(hc, xlab="Subjects or Objects", main="Clusters")

El gráfico resultante se muestra en la figura 2.11

Cargar paquete ggplot2 y luego paquete factoextra

com_esc <- scale(com)


km.res <- kmeans(com_esc, 3, nstart = 5)
fviz_cluster(km.res, com[, -3], ellipse.type = "norm")

El gráfico resultante se muestra en la figura 2.12


Gráficos datos panel. Se muestra un ejemplo en la figura 2.13.
Otro gráfico con ajuste lineal se muestra en la figura 2.14
2.4. REPRESENTACIONES GRÁFICAS 21

Figura 2.11: Cluster de las compañias usando las 8 variables

Figura 2.12: 3 Clusters para compañias


22 CAPÍTULO 2. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

Figura 2.13: GGplot2 Estimacion de λ12

Figura 2.14: Gráfico de dispersión y estimación de supérficie


Capı́tulo 3

Vectores y matrices aleatorias

Definición 3.0.1. Un vector aleatorio es aquel cuyas componentes son variables aleatorias.
Definición 3.0.2. Una matriz aleatoria es aquella cuyas componentes son variables aleatorias.
Definición 3.0.3. El valor esperado de una matriz (o un vector), es una matriz cuyos elementos
son los valores esperados de cada entrada de la matriz. En otras palabras, si X = [(Xij )]n×p es
una matrı́z aleatoria, entonces:
⎛ ⎞
E(X11 ) · · · E(X1p )
⎜ .. ⎟
E(X) = ⎝ ... . ⎠
E(Xn1 ) · · · E(Xnp )

Aquı́, 
xij f (xij ) dxij , Si Xij es continua
E(Xij ) = 
xij f (xij ) , Si Xij no es continua

3.0.1. Propiedades del Valor esperado


Sean X y Y matrices aleatorias de igual dimensión y A y B matrices de constantes de dimen-
siones adecuadas. Entonces:
• E(X + Y) = E(X) + E(Y)
• E(A X B) = A E(X) B
Suponga que X = (X1 , · · · , Xp ) es un vector aleatorio. Diremos que X1 , · · · , Xp son variables
aleatorias independientes si:

F (x1 , · · · , xp ) = F1 (x1 ) · · · Fp (xp ), ∀(x1 , · · · , xp ) ∈ Rp

donde
F (x1 , · · · , xp ) = P (X1 ≤ x1 , · · · , Xp ≤ xp )
es la distribución conjunta acumulada de X1 , · · · , Xp .

23
24 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS

Definición 3.0.4. Sea X = (X1 , · · · , Xp ) un vector aleatorio. El vector de medias μ y la


matrı́z de varianzas y covarianzas Σ del vector X están dados por:
⎛ ⎞
μ1
⎜ .. ⎟
μ = E(x) = ⎝ . ⎠ y
μp
⎛ ⎞
σ11 . . . σ1p
⎜ ⎟
Σ = E [(X − μ)(X − μ) ] = ⎝ ... . . . ... ⎠;
σp1 . . . σpp

donde

σij = E(Xi − μi )(Xj − μj ) . Por notación, σi2 = σii . La matrı́z Σ es simétrica.

Definición 3.0.5. La matriz de correlaciones poblacionales del vector aleatorio X, se denota ρ y


está dada por:
⎛ ⎞
1 ρ12 . . . ... ρ1p
⎜ .. ... .. ⎟
⎜ . . ⎟
⎜ ⎟
ρ=⎜
⎜ 1
..
.
..
. ⎟,

⎜ .. . . . .. ⎟
⎝ . . ⎠
ρ1p ρ2p . . . ... 1

donde
σij
ρij = √ √
σii σjj
⎛√ ⎞
σ11 0
⎜ .. ⎟
Haciendo V 1/2 = ⎝ . ⎠, tenemos que:

0 σpp

V 1/2 ρV 1/2 = Σ y ρ = (V 1/2 )−1 Σ(V 1/2 )−1

3.1. Matrices particionadas


Sea X un vector p-dimensional (que puede corresponder a p caracterı́sticas). Suponga que estas p
caracteristicas se particionan en dos grupos de tamaños q y p − q respectivamente. Por ejemplo,
3.1. MATRICES PARTICIONADAS 25

⎡ ⎤
X1
⎢ .. ⎥
⎢ . ⎥ ⎛ ⎞
⎢ ⎥
⎢ Xq ⎥ X(1)
⎢ ⎥
X = ⎢ − − − ⎥ = ⎝− − − ⎠ .
⎢ ⎥
⎢ Xq+1 ⎥ X(2)
⎢ . ⎥
⎣ .. ⎦
Xp

Entonces:

⎛ ⎞
μ1
⎜ .. ⎟
⎜ . ⎟ ⎛ ⎞
⎜ ⎟
⎜ μq ⎟ μ(1)
⎜ ⎟
μ = E(X) = ⎜− − −⎟ = ⎝− − −⎠ .
⎜ ⎟
⎜ μq+1 ⎟ μ(2)
⎜ . ⎟
⎝ .. ⎠
μp

Ahora,

⎛ ⎞
X 1 − μ1
⎜X2 − μ2 ⎟
⎜ ⎟
(X(1) − μ(1) )(X(2) − μ(2) ) = ⎜ .. ⎟ (Xq+1 − μq+1 , · · · , Xp − μp )
⎝ . ⎠
X q − μq

⎛ ⎞
(X1 − μ1 )(Xq+1 − μq+1 ) · · · (X1 − μ1 )(Xp − μp )
⎜ .. .. ⎟
=⎝ . . ⎠
(Xq − μq )(Xq+1 − μq+1 ) · · · (Xq − μ) (Xp − μp )

Ası́,

⎛ ⎞
σ1,q+1 σ1,q+2 · · · σ1,p
(1) (1) (2) (2) ⎜ .. .. ⎟ = Σ
E[(X − μ )(X − μ )] = ⎝ . . ⎠ 12
σq,q+1 ··· ··· σq,p

Como,
26 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS

⎡⎛ ⎞ ⎛ (1) ⎞⎤ ⎡⎛ (1) ⎞ ⎛ (1) ⎞⎤


X(1) μ X μ

(X − μ)(X − μ) = ⎣ ⎝ −−− − ⎠ ⎝ −−− ⎠ ⎦ ⎣ ⎝ −−− − ⎠ ⎝ − − −⎠⎦
(2) (2) (2)
X μ X μ(2)

 
(X(1) − μ(1) )(X(1) − μ(1) ) (X(1) − μ(1) )(X(2) − μ(2) )
=
(X(2) − μ(2) )(X(1) − μ(1) ) (X(2) − μ(2) )(X(2) − μ(2) )

 
Σ11 Σ12

⇒ Σ = E[(X − μ)(X − μ) ] =
Σ21 Σ22
donde,



⎨Σ11 es de orden q × q
Σ12 = Σ21 es de orden q × (p − q)


Σ22 es de orden (p − q) × (p − q)

3.2. Media y Varianza de combinaciones lineales


Sean X1 y X2 variables aleatorias y c ∈ R. Entonces:

E(cX1 ) = c E(X1 ).
E(a X1 + b X2 ) = a E(X1 ) + b E(X2 ).
V (c X1 ) = c2 V (X1 ).
Cov(a X1 , b X2 ) = a b Cov(X1 , X2 ) = a b σ12 .
V (a X1 + b X2 ) = a2 V (X1 ) + b2 V (X2 ) + 2 a b Cov(X1 , X2 )
= a2 σ11 + b2 σ22 + 2a b σ12

Note que si c = (a, b),


 
! " X1
a X1 + b X2 = a b = c X
X2

De manera similar,
 
μ1 ! "
E(a X1 + b X2 ) = aμ1 + bμ2 = a b = c μ
μ2
 
σ11 σ12
Si Σ = , entonces,
σ12 σ22
3.2. MEDIA Y VARIANZA DE COMBINACIONES LINEALES 27

  

!
" σ11 σ12 a
c Σc= a b
σ12 σ22 b
= a2 σ11 + b2 σ22 + 2 a b σ12
= V (c X) = V (aX1 + bX2 )

Si c = (c1 , · · · , cp ) y X es un vector aleatorio en Rp , entonces:

E(c X) = c  μ y V ar(c X) = c Σ c

donde μ = E(X) y Σ = Cov(X) .

En general, sea C = [(cij )]q×p una matriz de constantes reales y X un vector aleatorio en Rp . Defina
Z = C X, entonces
E(Z) = E(CX) = C μ y Cov(CX) = C Σ C 
donde, μ = E(X) y Σ = Cov(X).

 2 
Ejemplo 3.2.1. Sea X  = (X1 ,X2 ) un vector aleatorio en R con media μX = (μ1 , μ2 ) y matrı́z
σ11 σ12
de covarianzas ΣX = . Sea Z = (Z1 , Z2 ) un vector aleatorio, cuyas componentes están
σ12 σ22
dadas por: Z1 = X1 − X2 y Z2 = X1 + X2 . Calcule la media y la matrı́z de covarianzas del vector Z.

Solución. El vector Z puede escribirse como:


    
Z1 1 −1 X1
Z= = =CX
Z2 1 1 X2

Usando el resultado anterior, se tiene que:


    
1 −1 μ1 μ1 − μ2
μZ = E(CX) = C E(X) = C μX = =
1 1 μ2 μ1 + μ2
y
     
 1 −1 σ11 σ12 1 −1
ΣZ = C ΣX C =
1 1 σ12 σ22 1 1
   
σ11 − σ12 σ12 − σ22 1 −1
=
σ11 + σ12 σ12 + σ22 1 1
 
σ11 − σ12 − σ12 + σ22 σ11 − σ12 + σ12 − σ22
=
σ11 + σ12 − σ12 − σ22 σ11 + σ12 + σ12 + σ12
 
σ11 − 2σ12 + σ22 σ11 − σ22
=
σ11 − σ22 σ11 + 2σ12 + σ22
28 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS

3.3. Particionamiento del vector de medias y de la matrı́z


de covarianzas muestral
Sea x̄ = (x̄1 , . . . , x̄p ) el vector de medias muestrales, construido a partir de n observaciones en p
variables y la matrı́z de covarianzas muestral Sn de orden p, definida anteriormente y expresada
como:

⎛ ⎞
s11 · · · s1p
⎜ ⎟
Sn = ⎝ ... ⎠
s1p · · · spp
⎛ ⎞
1
 n
1

n

⎜ n
(xj1 − x̄1 )2 ··· n
(xj1 − x̄1 )(xjp − x̄p )⎟
⎜ j=1 j=1 ⎟
⎜ .. .. ⎟
= ⎜ . . ⎟
⎜ n ⎟
⎝1  1

n
2 ⎠
n
(xj1 − x̄1 )(xjp − x̄p ) · · · n
(xjp − x̄p )
j=1 j=1

De manera similar, se puede particionar el vector de medias muestrales y la respectiva matrı́z de


covarianzas muestral. Si ⎛ ⎞
x̄1
⎜ .. ⎟
⎜ . ⎟ ⎛ (1) ⎞
⎜ ⎟
⎜ x̄q ⎟ x̄
⎜ ⎟ ⎝
X̄ = ⎜ − − − ⎟ = − − −⎠
⎜ ⎟
⎜ x̄q+1 ⎟ x̄(2)
⎜ . ⎟
⎝ .. ⎠
x̄p
entonces,
⎡ ⎤
s11 ··· s1q | s1,q+1 ··· s1p
⎢ .. .. .. .. ⎥
⎢ . . | . . ⎥ ⎡ ⎤
⎢ ⎥
⎢ sq1 ··· sqq | sq,q+1 ··· sqp ⎥ S11 | S12
⎢ ⎥
Sn = ⎢ −− −− −− | −− −− −− ⎥ = ⎣−− | −−⎦ .
⎢ ⎥
⎢sq+1,1 · · · sq+1,q | sq+1,q+1 · · · sq+1,p ⎥ S21 | S22
⎢ . .. .. .. ⎥
⎣ .. . | . . ⎦
sp1 ··· spq | sp,q+1 ··· spp

donde


⎨S11 es de orden q × q

S12 = S21 es de orden q × (p − q)


S22 es de orden (p − q) × (p − q)
3.4. FORMAS MATRICIALES EFICIENTES 29

3.4. Formas matriciales eficientes


Sea Xn×p la matriz de datos. El cálculo del vector de medias y matrı́z de covarianzas muestrales,
pueden ser realizados usando una notación matricial más sencilla.
El vector de medias se puede calcular como
# n $
1 1 n
1 n
x̄ = (x̄1 , · · · , x̄p ) = x̄j1 , x̄j2 , · · · , x̄jp
n j=1 n j=1 n j=1
⎛ ⎞
x11 · · · x1p
1 ⎜ .. ⎟ = 1 1 X
= (1, · · · , 1) ⎝ ... ...
. ⎠
n n n
xn1 · · · xnp
La matrı́z de covarianzas muestrales puede escribirse como:

 
1 1
Sn = X In − 1n 1n X
n n
En efecto. Haciendo x̃ = (x1 − x̄, · · · , xn − x̄) , tenemos que
 
    1 
x̃ = x − x̄ 1n = x In − 1n 1n
n
! " ! " ! "
Pero como In − n1 1n 1n In − n1 1n 1n = In − n1 1n 1n , entonces:
 
1
n
 1  1  1 
(xi − x̄)(xi − x̄) = X̃ X̃ = X I n − 1n 1n X
n i=1 n n n

La matriz de correlación se obtiene como:

R = D−1/2 Sn D−1/2 ,
donde D−1/2 es la matriz diagonal con los inversos de las desviaciones estándar sobre la diagonal;
es decir,
⎡ 1 ⎤

s11
0 ··· 0
⎢ √1

⎢ 0 s22
··· 0 ⎥
D −1/2
=⎢⎢ .. .. ⎥ .

⎣ . . 0 ⎦
1
0 0 ··· √
spp

La varianza generalizada se define como el determinante de la matriz Sn , es decir


V G = |Sn | .
La varianza total es la traza de Sn , es decir
p

V T = tr (Sn ) = sjj .
j=1
30 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS

3.5. Muestras aleatorias de distribuciones p- variadas


Al igual que en el caso univariado, la importancia de definir estadı́sticos descriptivos está fundamen-
tada en la necesidad de hacer inferencias sobre los parámetros desconocidos de una distribución o
población de interés. En el caso univariado los parámetros de interés son principalmente el vector
de medias y la matrı́z de covarianzas (veremos que también es posible realizar inferencias acerca de
combinaciones lineales del vector de medias o de múltiples combinaciones de dicho vector, llamadas
contrastes.)
En el caso univariado, se está interesado en una sola caracterı́stica de una población de interés, usual-
mente representada por una variable aleatoria X con una distribución de probabilidad f (x). Una
muestra aleatoria de esta población está relacionada con un conjunto de n variables aleatorias iden-
ticamente distribuı́das e independientes; es decir, un conjunto de n variables aleatorias X1 , · · · , Xn ,
tales que:
g(x1 , · · · , xn ) = f1 (x1 ) · · · fn (xn ) = f (x1 ) · · · f (xn ) .

En el caso multivariado, tenemos un vector de variables aleatorias de dimensión p, X, y distribución de


probabilidad p−variada f (x). Una muestra aleatoria X1 , · · · , Xn de esta distribución, es un conjunto
de n variables aleatorias p-variadas independientes e idénticamente distribuı́das. Esto es:

%
n
h(x1 , · · · , xn ) = h1 (x1 ) · · · hn (xn ) = f (xi ) .
i=1

El siguiente resultado es de gran importancia para la parte inferencial acerca del vector de medias
y matriz de covarianzas de un vector aleatorio (usualmente conocidos como el vector de medias y
matriz de covarianzas de la población).

Teorema 3.5.1. Sea X1 , · · · , Xn una muestra aleatoria de una distribución p-variada con vector de
medias μ y matrı́z de varianzas y covarianzas Σ. Entonces:
1
E(X̄) = μ y Cov(X̄) = Σ.
n

n−1
E(Sn ) = Σ
n
Prueba
Primero observe que
1
X̄ = (X1 + · · · + Xn )
n
De esta manera se tiene que:
1 1
E(X̄) = E(X1 ) + · · · + E(Xn )
n n
1 1
= μ + ··· + μ = μ
n n
3.5. MUESTRAS ALEATORIAS DE DISTRIBUCIONES P - VARIADAS 31

Para el cálculo de la covarianza observe que:

# $# $
1 1
n n
(X̄ − μ) (X̄ − μ) = (Xj − μ) (Xk − μ)
n j=1 n k=1
1
n n
= (X̄j − μ) (X̄k − μ)
n2 j=1 k=1

De donde se obtiene,

1 &
n
' 1
Cov(X̄) = E (X̄j − μ) (X̄j − μ) = 2 (Σ + · · · + Σ)
2
n j=1 n 

n términos
1 1
= 2
(n Σ) = Σ
n n
Para calcular el valor esperado de Sn observe que:
! "! " &! "! "'
Xj − X̄ Xj − X̄ = Xji − X̄i Xjk − X̄k

Ahora,

n
! "! "
n
! "
n
! "! "
Xj − X̄ Xj − X̄ = Xj − X̄ Xj + Xj − X̄ −X̄
j=1 j=1 j=1

n
= ¯´
Xj Xj − n X̄ X
j=1

Esto debido a que



n
! "
n

Xj − X̄ = 0 y n X̄ = Xj Conesto,
j=1 j=1
( ) ( )

n
! "! "
n
E Xj − X̄ Xj − X̄ = E ¯´
Xj Xj − n X̄ X
j=1 j=1

n
! " * +
= ¯´
E Xj Xj − n E X̄ X
j=1

Para cualquier vector aleatorio V con media μV y matrı́z de covarianzas ΣV , se tiene que:

E [V V ] = ΣV + μV μV .

Con base en el resultado anterior, se deduce que,


! " ! " 1
E Xj Xj = Σ + μ μ y E X̄ X̄ = Σ + μ μ .
n
32 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS

Usando estas últimas expresiones, obtenemos que:


n * + n  
! " ¯  1
E Xj Xj − n E X̄ X´ = 
(Σ + μ μ ) − n Σ + μμ 

j=1 j=1
n
= n Σ + μ μ − Σ − μ μ = (n − 1) Σ

Como # $
1
n
Sn = ¯´
Xj Xj − n X̄ X
n j=1

se concluye que
n−1
E (Sn ) = Σ .
n

Los anteriores resultados indican que el vector de medias muestrales es un estimador insesgado para
μ y que la matrı́z de covarianzas muestral es un estimador sesgado para la matrı́z de covarianzas
poblacional Σ. Un estimador insesgado para Σ, está dado por:
(# $)
1
n
n
S = Sn = (xji − x̄i ) (xjk − x̄k )
n−1 n − 1 j=1

Se define la varianza generalizada muestral como |S| (el determinante de S.)

3.6. Distancia
Muchas de las importantes técnicas del análisis mutivariado se basan en el concepto de distancia.
El medir distancias entre variables es importante ya que permite obtener una idea de la proximidad
entre ellas. La distancia permite también juzgar lo plausible de una estimación o la bondad de ajuste
de un modelo.

Definición 3.6.1. Dados dos vectores X e Y ∈ Rp , X = (x1 , . . . , xp ) y Y = (y1 , . . . , yp ), la distancia


euclidea entre X e Y se define como

d(X, Y) = (x1 − y1 )2 + · · · + (xp − yp )2 .

Sin embargo, la distancia euclidea no es completamente satisfactoria desde un punto de vista es-
tadı́stico, ya que cada coordenada esta ponderada por un mismo factor. Cuando las coordenadas
representan medidas sujetas a fluctuaciones aleatorias de diferentes magnitudes (por ejemplo, la al-
tura(en metros) y la masa(en kilogramos)), es preferible ponderar de acuerdo a su variabilidad. Lo
usual es usar ponderaciones pequeñas para las coordenadas sujetas a un alto grado de variabilidad
(para juzgar la variabilidad es conveniente calcular estadı́sticos de resumen y/o hacer gráficos.) Por
esto es necesario desarrollar una distancia que tenga en cuenta la variabilidad y la dependencia entre
las variables(correlación).
3.6. DISTANCIA 33

Figura 3.1: Variables Independientes

Por simplicidad, suponga que se tienen n pares de mediciones en dos variables X1 y X2 , de manera
que las mediciones para X1 varian independientemente de las mediciones para X2 . Adicionalmente,
asuma que la variabilidad en X1 es mayor que la de X2 (ver figura 3.1).
El proceso de dividir cada valor de la variable por su desviación estándar, permite que estas sean
comparables (esto es necesario debido a la diferencia en la variabilidad). En otras palabras, las
observaciones resultantes, x∗1 y x∗2 estarán dadas por:

x1 x2
x∗1 = √ y x∗2 = √
s11 s22

La distancia euclidea entre el punto (x∗1 , x∗2 ) y el origen de coordenadas (0, 0), denominada Distancia
Estadı́stica, está dada por: ,

∗2 ∗2 x21 x22
d(0, P ) = x1 + x2 = + .
s11 s22
donde P = (x∗1 , x∗2 ).
Si en vez de dos variables tenemos p variables, manteniendo la premisa de independencia entre ellas,
y tal como en el caso de dos variables, dividimos cada observación por su respectiva desviación
estándar, tenemos que la distancia estadı́stica entre P = (x1 , . . . , xp ) y el origen de coordenadas en
Rp , 0 = (0, · · · , 0) está dada por:
,
x21 x2p
d(0, P ) = + ··· +
s11 spp

Si se tiene un par de observaciones p-variadas de la misma población, P = (x1 , · · · , xp ) y


Q = (y1 , · · · , yp ) , la distancia estadı́stica entre P y Q, estará dada por:
,
(x1 − y1 )2 (xp − yp )2
d(P, Q) = + ··· +
s11 spp

Nota: Si s11 = s22 = · · · = spp , entonces la distancia euclidiana es apropiada para el cálculo de la
distancia entre P y Q.
En general, la distancia euclidiana no es recomendable porque:
34 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS

No es invariante frente a cambios de escala de las variables


Presupone que las variables son incorrelacionadas y de varianza unitaria.

Si las variables no varian independientemente unas de otras, estas expresiones no son adecuadas.
Suponga nuevamente que se tienen un par de variables aleatorias X1 y X2 , las cuales no son inde-
pendientes (ver figura 3.2).

Figura 3.2: Variables Dependientes

Observe que al rotar cierto ángulo θ esta dependencia disminuye en los nuevos ejes x̃1 , x̃2 .
Hacienco P = (x̃1 , x̃2 ) y usando las varianzas muestrales de las nuevas variables x̃1 y x̃2 , se tiene que:
,
x̃21 x̃2
d(0, P ) = + 2
s̃11 s̃22

La relación entre estas coordenadas (x̃1 , x˜2 ) y las originales (x1 , x2 ) está dada por:

x̃1 = x1 cos(θ) + x2 sin(θ)


x̃2 = −x1 sin(θ) + x2 cos(θ)

De esta manera, y después de algunos cálculos, tenemos que:



d(0, P ) = a11 x21 + 2a12 x1 x2 + a22 x22

Aquı́, a11 , a12 , a22 están determinados por θ, y s11 , s12 , s22 se obtienen de los datos:

   
cos2 (θ) sen2 (θ) sen(θ) cos(θ) (s22 − s11 ) sen2 (θ) cos2 (θ)
a11 = + , a12 = , a22 = + .
s11 s22 s11 s22 s11 s22
3.6. DISTANCIA 35

Si se quiere calcular la distancia de P a un punto fijo Q, donde P = X = (x1 , x2 ) y Q = Y = (y1 , y2 ),


esta se obtiene como:

d(P, Q) = a11 (x1 − y1 )2 + 2 a12 (x1 − y1 )2 (x2 − y2 )2 + a22 (x2 − y2 )2 .

En general si P = (x1 , . . . , xp ) y Q = (y1 , . . . , yp ) es un punto fijo,


d(P, Q) = a11 (x1 − y1 )2 + · · · + app (xp − yp )2 + 2 a12 (x1 − y1 ) (x2 − y2 ) + . . . + 2 ap−1,p (xp−1 − yp−1 ) (xp − yp ) .

Los coeficientes aij pueden arreglarse matricialmente:


⎛ ⎞
a11 · · · a1p
⎜ ⎟
A = ⎝ ... ⎠.
a1p · · · app

Ahora, note que

d(P, Q)2 = a11 x21 + · · · + app x2p + 2(a12 x1 x2 + · · · + ap−1,p xp−1 xp )


⎛ ⎞
x1
⎜ .. ⎟
= (x1 , . . . , xp ) A ⎝ . ⎠ = X  A X > 0
xp

Esta propiedad hace que A sea definida positiva.


Si Q = μ = (μ1 , · · · , μp )
d(P, Q)2 = (X − μ) A (X − μ) .
Si A = Σ−1 se obtiene la llamada distancia de Mahalanobis; es decir

(X − μ) Σ−1 (X − μ) .

Su versión muestral está dada por:

(X − X̄) S −1 (X − X̄) .

Resumen:
La distancia de Mahalanobis entre dos vectores X y Y ∈ Rp , está dada por:

(X − Y) Σ−1 (X − Y) si Σ es conocida ,

y por
(X − y) S −1 (X − y) si Σ es desconocida .
.
36 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS

La distancia de Mahalanobis entre X y su vector de medias μ, está dada por

(X − μ) Σ−1 (X − μ) si Σ y μ son conocidas ,

y por
(X − X̄) S −1 (X − X̄) si Σ y μ son desconocidas .
Si X̄1 y X̄2 son vectores de medias asociados con dos grupos diferentes, la distancia de Maha-
lanobis estimada entre ambas está dada por:

(X̄1 − X̄2 ) Sp−1 (X̄1 − X̄2 ) ,

donde Sp será la matriz de Covarianzas mezclada de ambos grupos.

Usos:
La distancia de Mahalanobis puede usarse para medir la distancia entre dos individuos:

(X − Y) Σ−1 (X − Y) ,

donde X e Y representan los vectores de caracterı́sticas en lo dos individuos.


Puede usarse para medir la distancia de un individuo a la media de la población:

(X − μ) Σ−1 (X − μ) .

Puede usarse para medir la distancia entre las medias de dos poblaciones:

(μ1 − μ2 ) Σ−1
p (μ1 − μ2 ) .

Otras medidas de distancia


Suponga que se desea encontrar una medida de distancia entre un par de vectores de observaciones
xi = (x11 , . . . , xip ) y xj = (xj1 , . . . , xjp ) .

Distancia de Minkowski. La distancia entre la observación i y la j está dada por:


# $ 1q

p
δmq (i, j) = |xik − xjk |q ; q>0
k=1

Esta distancia tiene los mismos inconvenientes que la distancia euclidiana. En este caso, la
distancia euclidiana es un caso particular de la de Minkowski, cuando q = 2.
Distancia de Manhattan. esta se obtiene de la distancia de Minkowski haciendo q = 1:


p
δm1 (i, j) = |xik − xjk | .
k=1
3.6. DISTANCIA 37

Distancia Máxima.

dmax (i, j) = max{ |xi1 − xj1 |, |xi2 − xj2 |, . . . , |xip − xjp | } .

Distancia de Canberra.

p
|xik − xjk |
δC (i, j) = .
|xik | + |xjk |
k=1

Distancias para variables Binarias


Suponga que en los n sujetos u objetos se registra un vector X = (X1 , . . . , xp ) de variables binarias
(solo toman valores de 0 o 1). En este caso la expresión más apropiada se refiere a medidas de simila-
ridad. En este caso las diferentes medidas de similaridad entre observaciones, se basan en comparar
la coincidencia o no entre los valores de todas las variables. Sea dij una medida de similaridad entre
las observaciones i y j. Para este par de observaciones denote
a Número de variables con respuesta 1 en ambas observaciones
b Número de variables con respuesta 0 en el sujeto i y 1 en el sujeto j
c Número de variables con respuesta 1 en el sujeto i y 0 en el sujeto j
d Número de variables con respuesta 0 en ambas observaciones
Esto se puede resumir en la siguiente tabla: (ver figura 3.3).

Figura 3.3: Tabla de indicadores de similaridad obs i y j

Usando la tabla anterior, se pueden definir varias distancias o medidas de similaridad. Haciendo
p = a + b + c + d, se tiene:

Sokal y Michener:
a+d
sij = .
p
Jaccard:
a
sij = .
a+b+c
Al aplicar estos indicadores a las n observaciones se obtiene una matriz de similaridades S = [(sij )]n×n .

Ejercicio 3.6.1. Suponga que se tiene información sobre 4 sujetos en 6 variables, en las cuales se
han clasificado como presencia (1) o ausencia (0) de cierta patologı́a. Los resultados se muestra en
la siguiente tabla.
38 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS

Sujeto X1 X2 X3 X4 X5 X6
1 1 1 0 0 1 1
2 1 1 1 0 0 1
3 1 0 0 1 0 1
4 1 0 1 0 0 0

Usando el ı́ndice de Sokal y Michener se obtiene las siguientes tablas para el sujeto 1 comparado con
los demás (ver figura 3.4).:

Figura 3.4: Tabla de indicadores de similaridad obs 1 y las demás

La matriz de similaridades usando el ı́ndice de Sokal y Michener es:

⎛ 2 1 1⎞
1 3 2 3
⎜2 1 1 2⎟
SSM =⎜ 3
⎝1 1 1
2 3⎟
1⎠
2 2 2
1 2 1
3 3 2 1

Ejercicio 3.6.2. Los biólogos Grojan y Wirth (1981) describieron dos nuevas especies de insectos,
Ameroheleafasciata (AF) y Apseudofasciata (APF). Puesto que las especies son similares en
apariencia, resulta útil para el biólogo estar en capacidad para clasificar un especimen como AF o
APF basado en caracterı́sticas externas que son fáciles de medir. Entre algunas de las caracterı́sticas
que distinguen los AP de los APF, Grojan y Wirth reportan medidas de la longitud de las antenas
y la longitud de las alas, ambas en milı́metros, de nueve insectos AF y seis insectos APF. Una de
las preguntas que los motivó a llevar a cabo su estudio fue: “¿será posible encontrar una regla que
nos permita clasificar un insecto dado como AF o APF, basados unicamente en mediciones de las
antenas y las alas?”

(La respuesta a esta pregunta es afirmativa y el método se verá más adelante en el curso). Los datos
recopilados son:
3.6. DISTANCIA 39

Especie Longitud de las antenas (X) Longitud de las alas (Y )


AF 1.38 1.64
AF 1.40 1.20
AF 1.24 1.72
AF 1.36 1.74
AF 1.38 1.82
AF 1.48 1.82
AF 1.54 1.82
AF 1.38 1.90
AF 1.56 2.08
APF 1.14 1.78
APF 1.20 1.86
APF 1.18 1.96
APF 1.30 1.96
APF 1.26 2.00
APF 1.28 2.00

1. Construya un gráfico de X vs Y . Comente acerca de la apariencia de estos datos.


2. Para cada grupo de (AF y APF) calcule el vector de medias muestrales, la matrı́z de covarianzas
muestral, la matrı́z de correlación muestral y la varianza generalizada.
3. Calcule la distancia euclidea entre el vector de medias de AF y el de APF.
4. Calcule la distancia de Mahalanobis entre el vector de medias de AF y el de APF.
5. ¿Considera usted razonable el usar la distancia de Mahalanobis en cada uno de los grupos?

El gráfico de el vector bivariado discriminado por especie se muestra en la figura 3.5.


Comandos en R.

insec <- read.table(file.choose(),header=T)


Euclidiana

round(dist(insec[,2:3], method = "euclidean"), 2)


dist(insec[,2:3], method = "maximum")
dist(insec[,2:3], method = "manhattan")
round(dist(insec[,2:3], method = "canberra"), 2)
round(dist(insec[,2:3], method = "minkowski"), 2)

library(ggplot2)

1. Grafico X vs Y

ggplot(data=insec,aes(Long_Ant, Long_alas,color=Especie)) + geom_point(size=5, pch=2)

2. Vectores de Medias

af <- insec[insec[,1]=="AF",]
apf <- insec[insec[,1]=="APF",]
40 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS

Figura 3.5: Gráfico de dispersión por Especie

Matrices de Covarianzas Muestrales

maf <- as.numeric(apply(af[,2:3], 2, mean))


mapf <- as.numeric(apply(apf[,2:3], 2, mean))
saf <- matrix(as.numeric(var(af[,2:3])),ncol=2,byrow=T)
sapf <- matrix(as.numeric(var(apf[,2:3])),ncol=2,byrow=T)

rhoaf <- matrix(as.numeric(cor(af[,2:3])),ncol=2,byrow=T)


rhoapf <- matrix(as.numeric(cor(apf[,2:3])),ncol=2,byrow=T)

spool <- (nrow(af)/nrow(insec))*saf + (nrow(apf)/nrow(insec))*sapf

Distancia euclidea

t(maf - mapf)%*%(maf - mapf)

Distancia Mahalanobis entre medias

t(maf - mapf)%*%solve(spool)%*%(maf - mapf)


3.7. DATOS FALTANTES. (MISSING DATA) 41

3.7. Datos faltantes. (Missing data)


Ver referencia Littel R.J y Rubi D.B 1987.
Fuentes de datos faltantes:

Recopilando información con humanos. Puede suceder que algunas personas no asistan el dı́a
acordado para registrar su información.
Laboratorios. Un accidente puede producir información incompleta.
Encuestas. Algunas personas puede negarse a dar información.
Error humano. Al recopilar la información computacionalmente se pueden cometer errores de
omisión o de digitación.

Existen técnicas que trabajan bien en presencia de datos faltantes pero otras funcionan bien uni-
camente en presencia de datos completos. Algunas veces se opta por eliminar aquellos sujetos con
información incompleta; sto puede traer consecuencias no deseadas ya que el tamaño muestral se pue-
de ver fuertemente reducido y esto puede comprometer la calidad de las estimaciones. Una alternativa
de estimar las observaciones faltantes (Imputación de datos)

Algunas técnicas de imputación


Reemplace los valores faltantes por el promedio de los valores observados en la variable corres-
pondiente.
Regresión múltiple. Trata la variable con datos faltantes como si fuera la variable dependiente
(o la respuesta) y ajusta un modelo de regresión asumiendo que las variables con información
completa son las variables independientes. En este caso se procede ası́:
1. Particione la matriz de datos en dos: Una parte contiene las filas con las observaciones que
tienen entradas faltantes y la otra con las observaciones completas.
2. Suponga que la entrada xij corresponde a un dato faltante (para el sujeto i en la variable
j).
3. Emplee la matriz de observaciones completa para regresar la variable xj sobre las otras
variables y ası́ obtener el modelo estimado:
x̂j = b0 + b1 x1 + · · · + bj−1 xj−1 + bj+1 xj+1 + · · · + bp xp .
4. Reemplace las entradas no faltantes de la i-ésima fila en el miembro derecho de esta ecuación
para obtener una estimación de x̂ij . Este proceso se puede iterar ası́:
• Estime todos los datos faltantes usando la ecuación de regresión.
• Despues de imputar los datos faltantes use la matriz de datos completa para estimar
nuevas ecuaciones de predicción.
• Con estas nuevas ecuaciones impute nuevamente los datos faltantes.
• Repita este proceso hasta observar una estabilización de los valores estimados.

El paquete SAS, contiene un procedimiento llamado PROC MI, un proceso experimental que imputa
automaticamente todos los datos faltantes en una base de datos.
En R se usa el paquete vim.
42 CAPÍTULO 3. VECTORES Y MATRICES ALEATORIAS

require(VIM)
require(FactoMineR)
require(tidyr)
require(dplyr)
require(magrittr)

Ejemplo 3.7.1. Suponga que se tienen los siguientes datos:


X1 X2 X3 X4
• 51 4.8 115
1.40 60 • 130
1.42 69 5.8 138
1.54 73 6.5 148
1.30 56 5.3 122
1.55 75 7.0 152
1.50 80 8.1 160
1.60 76 7.8 155
1.41 58 5.4 135
1.34 70 6.1 140

Paso 1. Primero ajustamos un modelo de regresión lineal múltiple de x1 contra las variables
x2 , x3 y x4 . La ecuación de regresión ajustada es la siguiente:

x̂1 = 0.179 − 0.006 x2 − 0.015 x3 + 0.013 x4 .

Reemplazando x2 = 51, x3 = 4.8 y x4 = 115 se obtiene x̂1 = 1.24.


Paso 2. Ajustamos x3 contra las demás variables. El modelo resultante es:

x̂3 = −4.417 − 0.674 x1 − 0.014 x2 + 0.076 x4 .

Reemplazando x1 = 1.40, x2 = 60, x4 = 130 se obtiene x̂3 = 5.36.


Paso 3. Con esto s valores se completa la base de datos y se repiten los pasos 1 y 2.

x̂1 = 0.193 − 0.006 x2 − 0.019 x3 + 0.013 x4 .

Reemplazando x2 = 51, x3 = 4.8 y x4 = 115 se obtiene x̂1 = 1.24.


analogamente
x̂3 = −3.145 − 1.010 x1 + 0.014 x2 + 0.071 x4
Reemplazando x1 = 1.40, x2 = 60, x4 = 130 se obtiene x̂3 = 5.48.

Despúes de repetir el proceso dos veces más se tiene x̂1 = 1.25, x̂3 = 5.52.
Usando la media muestral se obtiene x̂1 = 1.45, x̂3 = 6.31.
Capı́tulo 4

Distribución normal multivariada

De las mismas manera en que muchas técnicas univariadas (tales como el ánalis de regresión) se
basan en la distribución normal, muchas de las técnicas multivariadas se basan en la que se conoce
como la distribución normal multivariada.
En el caso univariado cuando no se cumple el supuesto de normalidad existen algunas alternativas
para este problema:
1. Transformación de datos.
2. Uso de teoremas limites (Estadı́stica Asintótica).
3. Técnicas no paramétricas.
La importancia de la distribución normal multivariada radica en un sin-número de propidades aso-
ciadas con ella y a resultados asintóticos muy importantes relacionados con distribuciones muestrales
(TLC). Matemáticamente es una distribución razonablemente tratable; sirve como un modelo pobla-
cional para ciertos fenómenos naturales y de ella se pueden derivar otras importantes distribuciones,
tales como la llamada T 2 de Hotelling y la W de W ishart.
En el análisis multivariado, la normal multivariada, se puede trabajar desde dos perspectivas:
Mediante la p.d.f conjunta
Mediante una caracterización propuesta por RAO basada en la normal univariada.
La p.d.f normal multivariada surge de manera más o menos natural como una extensión de la normal
univariada. Recuerde que en el caso univariado, si X ∼ N (μ, σ 2 ), entonces:
1 1 x−μ 2
f (x) = √ e− 2 ( σ )
2πσ
1 ! "− 1 1 2 −1
= (2 π) 2 σ 2 2 e− 2 (X−μ) (σ ) (X−μ)

Note que:
 2
X −μ ! "−1/2
= (X − μ) σ 2 (X − μ) ,
σ
mide el cuadrado de la distancia entre X y μ escalada según la desviación estándar.

43
44 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA

Esta idea puede generalizarse a un vector X en Rp de observaciones en p variables por medio de:

(X − μ) Σ−1 (X − μ) , ∗

donde μ es el vector poblacional de medias asociado al vector aleatorio X y Σp×p es la matrı́z de


covarianzas del vector X.

De ahora en adelante se asumirá que Σ es definida positiva (este supuesto garantiza la existencia de
la inversa Σ−1 .) La expresión ∗ indica que se trabaja con la distancia de Mahalanobis entre X y μ .

Definición 4.0.1. Sea X un vector aleatorio ∈ Rp . Se dice que X tiene una p.d.f Normal Multi-
variada, y se escribe X ∼ Np (μ, Σ) si:

− p2 − 12 − 12 (x−μ) Σ−1 (x−μ)


f (x) = (2 π ) |Σ| e .
Note la similaridad con la contraparte unidimensional expuesta arriba.

4.1. Aspectos geométricos relacionados con la normal mul-


tivariada
La expresión (x − μ) Σ−1 (x − μ) = c2 , la cual se basa en el exponente de la p.d.f normal multiva-
riada, correponde a un hiper-elipsoide, para cualquier c > 0.

Este tipo de hiper-elipsoides están centrados en μ y tiene ejes ± c λi ei , i = 1, · · · , p, donde λi es
el i-ésimo valor propio de Σ asociado al vector propio ei .

Resultado 4.1.1. Si Σ es definida positiva y λ es un valor propio de Σ asociado al vector propio e


entonces:  
−1 1
Σ e = λe implica que Σ e = e
λ
También Σ−1 es definida positiva.

Prueba Como Σ es d.p, e Σ e > 0 , e = 0, donde e es un vector propio de Σ. Como Σ e = λ e,


entonces:

e Σ e = e (λe)
= λ e e
=λ.

De esta última expresión se deduce que λ > 0. Ahora,

e = Σ−1 (Σ e) = Σ−1 (λ e)
4.1. ASPECTOS GEOMÉTRICOS RELACIONADOS CON LA NORMAL MULTIVARIADA 45

Entonces  
1
e = Σ−1 e
λ
Lo que implica que 1
λ
es un valor propio de Σ−1 asociado al vector propio e.
Ahora, para un vector x = 0, observe que:
# p   $
1
x Σ−1 x = x ei ei x
i=1
λi
p  
1
= x ei ei x
i=1
λi
p  
1 2
= (ei x)
i=1
λi
>0

Esto debido a que λi > 0 y x = 0. De esta manera se concluye que Σ−1 es d.p. Como Σ = P Λ P  ,
entonces se verifica fácilmente que Σ−1 = P Λ−1 P  , lo que equivale a escribir Σ−1 como:
p  
1
−1
Σ = ei ei
i=1
λ i

Ejemplo 4.1.1. Suponga que Σ = [(σij )]2×2 y que σ11 = σ22 . Grafique el elipsoide correspondiente
bajo la restricción de que ρ > 0.

Solución. Los ejes del elipsoide estarán dados por ± c λi ei , con i = 1, 2 y c > 0. Para hallar los
valores propios de Σ se debe resolver la ecuación |Σ − λ I2 | = 0.

-   -
- σ11 σ12 λ 0 -
|Σ − λ I2 | = -- − -
σ12 σ22 0 λ -
- -
-σ11 − λ σ -
= -- 12 -
σ12 σ11 − λ-
= (σ11 − λ)2 − σ12
2

= (σ11 − λ − σ12 )(σ11 − λ + σ12 )


=0

De esta última expresión se obtiene: λ1 = σ11 + σ12 y λ2 = σ11 − σ12 . Los respectivos vectores
propios se obtienen al resolver la ecuación: Σ e = λi e . Por ejemplo, sea e1  = (e1 , e2 ) el vector propio
asociado al valor propio λ1 . Entonces:
    
σ11 σ12 e1 e
= (σ11 + σ12 ) 1
σ12 σ11 e2 e2

De lo cual se obtiene el siguiente sistema de ecuaciones:


46 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA

σ11 e1 + σ12 e2 = (σ11 + σ12 ) e1 ⇒ e1 = e2


σ12 e1 + σ11 e2 = (σ11 + σ12 ) e2 ⇒ e1 = e2

El vector e1 normalizado está dado por:


 
e1 1 1 1
= 2 e21 = (e1 , e1 ) × √ = √ ,√
||e1 || 2 e1 2 2
Análogamente, el segundo vector propio asociado al valor propio λ2 es:
* +
e2 = √12 , − √12 .

Como ρ > 0, entonces σ12 > 0; y ası́ λ1 > λ2 , ya que


λ1 = σ11 + σ12 > σ11 > σ11 − σ12 = λ2 .
De lo anterior se concluye que si σ11 = σ22 y ρ > 0 , el eje mayor de la elipse está a lo largo de una
lı́nea cuya inclinación es de 45o y que pasa por μ = (μ1 , μ2 ). El respectivo gráfico se muestra en la
figura 4.1.

Figura 4.1: Elipsoide para Normal Bivariada

Este ejemplo se retomará más adelante en el tema de componentes principales.

Ejemplo 4.1.2. Suponga que el vector aleatorio X = (X1 , X2 ) tiene una distribución Normal con
vector de medias μ = (μ1 , μ2 ) y matrı́z de covarianzas Σ. La distribución resultante es llamada
Normal Bivariada. La forma explı́cita de la función se obtiene ası́:
4.1. ASPECTOS GEOMÉTRICOS RELACIONADOS CON LA NORMAL MULTIVARIADA 47

 
σ11 σ12
Suponga que Σ = . De esta manera se tiene:
σ12 σ22
 
−1 1 σ22 −σ12
Σ = 2
σ11 σ22 − σ12 −σ12 σ11

√ √
Observe que ρ12 σ11 σ22 = σ12 , con ρ = ρ12 , entonces:
2
σ11 σ22 − σ12 = σ11 σ22 − ρ2 σ11 σ22 = σ11 σ22 (1 − ρ2 )

Ahora,  
 −1 −1 x 1 − μ1
(x − μ) Σ (x − μ) = (x1 − μ1 , x2 − μ2 ) Σ
x 2 − μ2
√ √
σ22 (x1 − μ1 )2 + σ11 (x2 − μ2 )2 − 2 ρ σ11 σ22 (x1 − μ1 ) (x2 − μ2 )
=
σ11 σ22 (1 − ρ2 )

( 2     2 )
1 x 1 − μ1 x 1 − μ1 x 2 − μ2 x 2 − μ2
= √ − 2 ρ12 √ √ +
1 − ρ2 σ11 σ11 σ22 σ22

Se sabe que |Σ| = σ11 σ22 (1 − ρ2 ), ası́:

f (x) = f (x1 , x2 )
(  2 )
−1/2 1 x 1 − μ 1
= (2π)−2/2 |Σ| exp − √
2(1 − ρ2 ) σ11
   
ρ x 1 − μ1 x 2 − μ2
× exp √ √
(1 − ρ )
2 σ11 σ22
(  2 )
1 x 2 − μ2
× exp − √
2(1 − ρ )2 σ22
(  2 )
1 x 1 − μ 1
= (2π)−1 (σ11 σ22 (1 − ρ2 )−1/2 ) exp − √
2(1 − ρ2 ) σ11
   
ρ x 1 − μ1 x 2 − μ2
× exp √ √
(1 − ρ )
2 σ11 σ22
(  2 )
1 x 2 − μ2
× exp − √
2(1 − ρ )2 σ22

Observación:
Recuerde que si X1 y X2 son independientes ⇒ ρ = 0
En la expresión para f (x), con p = 2, si ρ = 0 se tiene que:
48 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA

  2  2 .
1 1 x 1 − μ1 x 2 − μ2
f (x1 , x2 ) = √ exp − √ + √
2π σ11 σ22 2 σ11 σ22
(  2 ) (  2 )
1 1 x 1 − μ1 1 1 x 2 − μ2
=√ √ exp − √ ×√ √ exp − √
2π σ11 2 σ11 2π σ22 2 σ22
= f (x1 ) f (x2 )

Entonces X1 y X2 son independientes. Por lo tanto, si ρ = 0 ⇒ X1 y X2 son independientes.

4.2. Propiedades de la Distribución Normal Multivariada


Sea X ∈ Rp un vector aleatorio.

1. Si X ∼ Np (μ, Σ) , entonces, E(X) = μ , y Cov(X) = Σ . La distribución queda completamente


caracterizada por μ y Σ .

2. Si X ∼ Np (μ , Σ) , entonces a X = a1 X1 + · · · + ap Xp se distribuye normal univariada:


N (a μ , a Σ a) . Análogamente, si ∀a ∈ Rp , a X se distribuye normal univariada, entonces
X se distribuye normal multivariada.

3. Si X ∼ Np (μ, Σ) , entonces:
El vector X + d tiene una distribución Np (μ + d, Σ) .
El vector Y = A X + b ∼ Nq (A μ + b , A Σ A ) , donde Aq×p y bq×1 .
⎛ (1) ⎞ ⎛ (1) ⎞
X μ
4. Suponga que X ∼ Np (μ, Σ) , y que X = ⎝ −− ⎠ . Sabemos que: μ = ⎝ −− ⎠ y que
⎛ ⎞ X(2) μ(2)
Σ1 1 | Σ 1 2
Σ = −− | −−⎠ . Entonces: X(1) ∼ Nq (μ(1) , Σ11 ) y X(2) ∼ Np−q (μ(2) , Σ22 ) .

Σ 2 1 | Σ2 2

5. Suponga que X ∼ Np (μ, Σ) .


⎛ (1) ⎞
X
Si X = −− ⎠ , se tiene que X(1) y X(2) son E.I. si, y solo si, Σ12 = Σ21 = 0 .
⎝ 

X(2)
Sean X(1) y X(2) vectores aleatorios E.I. tales que X(1) ∼ Nq1 (μ(1) , Σ11 ) y X(2) ∼
Nq2 (μ(2) , Σ22 ) . Entonces
⎛ (1) ⎞ ⎛⎛ (1) ⎞ ⎛ ⎞⎞
X μ Σ1 1 | 0
X = ⎝ −− ⎠ ∼ Nq1 +q2 ⎝⎝ −− ⎠ , ⎝ −− | −− ⎠ ⎠ .
X(2) μ(2) 0 | Σ2 2
• La normal multivariada es la única distribución conocida con esta propiedad (covarianza
cero implica que las respectivas componentes son independientes) .
4.2. PROPIEDADES DE LA DISTRIBUCIÓN NORMAL MULTIVARIADA 49

• Si Σ1 2 = 0 , X(1) y X(2) siguen siendo normales multivariadas.


⎛ (1) ⎞ ⎛ (1) ⎞
X μ
6. Sea X = ⎝ −− ⎠ ∼ Np (μ, Σ) , donde μ = ⎝ −− ⎠ ,
⎛ X(2) ⎞ μ(2)
Σ11 | Σ12
Σ = ⎝−− | −−⎠ y |Σ12 | > 0.
Σ21 | Σ22
Entonces la distribución condicional de X(1) dado X(2) = x(2) es una normal multivariada
con vector de medias
μX(1) | x(2) = μ(1) + Σ12 Σ−1
22 (x
(2)
− μ(2) )
y matrı́z de covarianzas
ΣX(1) | x(2) = Σ11 − Σ12 Σ−1
22 Σ21 .

7. Estandarización multivariada. Sea X ∈ Rp un vector aleatorio tal que X ∼ Np (μ, Σ) . Si Σ es


invertible, entonces
1
Z = Σ− 2 (X − μ) ∼ Np (0, Ip ) .
Donde Ip es la identidad y 0 es el vector cero en Rp . Note la similaridad con el proceso de
estandarización univariada.

8. Si X ∼ Np (μ, Σ) , entonces la Función Generadora de Momentos del vector X está dada por:
 
 1 
MX (t) = exp t μ + t Σ t ,
2
para t ∈ Rp .

9. Matrı́z
! de Covarianzas
" común. Sean X1 , X2 , · · · , Xn vectores aleatorios en Rp tal que Xj ∼
Np μj , Σ entonces
# n # n $ $

V 1 = c 1 X 1 + · · · + c n X n ∼ Np ci μ i , c2i Σ .
i=1 i=1

Además, si V2 = b1 X1 + · · · + bn Xn , entonces V1 y V2 tienen distribución conjunta normal


multivariada con vector de medias
⎛  n ⎞
ci μ i
⎜ i=1 ⎟
⎜ ⎟
μ = ⎜− − − − − ⎟
⎝  n ⎠
bi μ i
i=1

y matrı́z de covarianzas
⎛  ⎞

n
⎜ c2i Σ 
(b c) Σ ⎟
⎜ i=1 ⎟
Σ V1 , V2 =⎜
⎜ n  ⎟

⎝  2 ⎠
(b c) Σ bi Σ
i=1
50 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA


n
Las combinaciones aleatorias V1 y V2 son estadı́sticamente independientes, si b c = c i bi =
i=1
0.

10. Sea X ∼ Np (μ, Σ) con Σ definida positiva. Entonces:

(X − μ) Σ−1 (X − μ) ∼ χ2 (p) .

Ejemplo 4.2.1. Sea X ∼ Np (μ , Σ) y a = (0, 0, · · · , 1, 0, · · · , 0) cero en la i-esima componente.


Se tiene que a X = Xi y a μ = μi .Además, a Σ a = σi i . Entonces, a X ∼ N (μi , σi i ) . La
distribución de la i-ésima componente de X es normal univariada.

Ejemplo 4.2.2. Sea X ∈ R4 tal que X ∼ N4 (μ, Σ) , donde

⎞ ⎛ ⎛ ⎞ ⎛ ⎞
X1 2 7 3 −3 2
⎜X 2 ⎟ ⎜−1⎟ ⎜3 6 0 0⎟
X=⎜ ⎟ ⎜ ⎟ ⎜
⎝X3 ⎠ , μ = ⎝ 3 ⎠ y Σ = ⎝−3
⎟.
0 5 −2⎠
X4 1 2 4 −2 4
   
1 −2 0 0 1
Note que si A = y b= , entonces
0 1 −1 3 2

 
X1 − 2 X2 + 1
Y =AX +b= .
X2 − X3 + 3 X4 + 2
 
5
De esta manera, Y ∼ N2 (μY , ΣY ) , donde μY = A μ + b = y ΣY = A Σ A =
  −1
19 −24
.
−24 83
Si, a = (0, 0, 1, 0) , entonces

Y = a X = X3 ∼ N (a μ, a Σ a) = N (3, 5) .

Ahora, sea X(1) = (X1 , X4 ) . Observe que X(1) se obtiene como:


⎛ ⎞
  X1  
1 0 0 0 ⎜X2 ⎟ X1
(1)
X = ⎜ ⎟ = .
0 0 0 1 ⎝ X3 ⎠ X4
X4
*    
(1) (1) (1) (1) 2 (1) 7 2
Entonces X ∼ N2 μ , Σ ) donde μ = y Σ = .
1 2 4
4.3. EVALUACIÓN DEL SUPUESTO DE NORMALIDAD 51

Note que el vector de medias y la matrı́z de covarianzas del vector X(1) se obtienen tomando los
elementos correspondientes de μ y Σ respectivamente.
   
(1) X2 (1) X1
Considere los sub-vectores X = y X = . Estos sub-vectores corresponden
X4 X3
a un reordenamiento de X , μ y Σ , de la siguiente forma:
⎛ ⎞ ⎛ ⎞ ⎛ ⎞
X2 ⎛ (1) ⎞ μ2 −1
⎜ X4 ⎟ X ⎜ μ4 ⎟ ⎜ 1 ⎟
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
Y=⎜
⎜− − − ⎟ = ⎝− − − ⎠ ,
⎟ μY =⎜ ⎟ ⎜ ⎟
⎜− − − ⎟ = ⎜ . . . ⎟ y
⎝ X1 ⎠ X(2) ⎝ μ1 ⎠ ⎝ 2 ⎠
X3 μ3 3

⎛ ⎞ ⎛ ⎞
σ2 2 σ2 4 | σ2 1 σ2 3 6 4 | 3 0 ⎛ ⎞
⎜ σ4 2 σ4 4 | σ4 1 σ4 3 ⎟ ⎜ 4 | 2 −2 ⎟ Σ 1 1 | Σ1 2
⎜ ⎟ ⎜ 4 ⎟
ΣY = ⎜
⎜−− −− | −− −−⎟ ⎜ ⎟ ⎝ ⎠
⎟ = ⎜−− −− | −− −−⎟ = − − − | − − − .
⎝ σ1 2 σ1 4 | σ1 1 σ1 3 ⎠ ⎝ 3 2 | 7 −3 ⎠ Σ2 1 | Σ2 2
σ3 2 σ3 4 | σ3 1 σ3 3 0 −2 | −3 5

Note que: ⎛ ⎞⎛ ⎞
0 1 0 0 X1 ⎛ (1) ⎞
⎜0 ⎟ ⎜ ⎟ X
0 0 1⎟ ⎜X2 ⎟ ⎝
Y=⎜
⎝1 = − − −⎠ .
0 0 0⎠ ⎝X3 ⎠
X(2)
0 0 1 0 X4

4.3. Evaluación del supuesto de normalidad


El supuesto de que un vector aleatorio X proviene de una distribución normal multivariada, es una
pieza clave en la inferencia estadı́stica. En situaciones donde el tamaño muestral es grande y las
técnicas empleadas se basan en el vector de medias X̄ o en distancias que involucren el vector de
medias muestral, el supuesto de normalidad multivariada parece no ser tan crucial. Sinembargo, la
calidad de las inferencias dependerá, en gran parte, de que tan parecida es la forma de la distribución
del vector aleatorio, de una normal multivariada.

Por esta razón tener métodos o herramientas para detectar cuando un vector de datos tienen una
distribución que se aleja de la normal, es crucial a la hora de realizar análisis posteriores. Bajo el
supuesto de normalidad multivariada, cualquier combinación lineal de las componentes del vector es
una variable aleatoria normal univariada y los contornos de la distribución multivariada son elipsoides.
En este orden de ideas, algunos pasos previos que pueden dar indicios acerca de la normalidaqd
multivariada o la no-normalidad son:

1. ¿Las distribuciones marginales del vector X parecen comportarse como normales univariadas?

2. ¿La distribución de alguna combinación lineal de X parece no ser normal univariada?


52 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA

3. Si se elaboran gráficos de dispersión por pares, ¿alguno de ellos parece no mostrar un compor-
tamiento elı́ptico?

4. Se evidencia la presencia de datos atı́picos, ya sea a nivel marginal o bivariado?

Por lo general, cuando se quiere indagar sobre el supuesto de normalidad multivariada, en la mayorı́a
de los casos, el análisis se concentra en una o dos dimensiones, ya que la construcción de pruebas de
normalidad en mas dimensiones, puede ser dificil y en algunos casos, los análisis derivados de ellas
pueden ser equivocados. Afortunadamente, en la práctica, no es frecuente encontrar conjuntos de
datos que sean normales en dimensiones bajas y no lo sean en dimensiones altas.

4.3.1. Evaluación de normalidad a nivel marginal


A nivel univariado, los histogramas para tamaños de muestra n > 25 y los diagramas de puntos para
n pequeño, son más o menos útiles para detectar alejamientos de simetrı́a (una cola parece ser mucho
mayor que la otra). Es posible comprobar si un histograma es razonablemente simétrico, realizando
un breve conteo de observaciones en ciertos intervalos.
Suponga que se tiene un vector aleatorio X = (X1 , · · · , Xp ), con vector de medias μ = (μ1 , · · · , μp )
y matriz de covarianzas Σ = [(σij )].
Si Xi tiene una distribución normal univariada, entonces:
√ √
P (Xi ∈ (μi − σii , μi + σii ) = 0.68269 ,
√ √
P (Xi ∈ (μi − 2 σii , μi + 2 σii ) = 0.9545 ,
√ √
P (Xi ∈ (μi − 3 σii , μi + 3 σii ) = 0.9973 .

Si se toma una muestra aleatoria X1 , · · · , Xn de la distribución del vector aleatorio X, entonces,


para la variable Xi se espera que la proporción de observaciones Pi1 en la muestra que están en en el
√ √
intervalo (x̄i − sii , x̄i + sii ) esté cerca a 0.68269, la proporción de observaciones Pi2 en el intervalo
√ √
(x̄i − 2 sii , x̄i + 2 sii ) esté cerca a 0.9545 y la proporción de observaciones Pi3 en el intervalo
√ √
(x̄i − 3 sii , x̄i + 3 sii ) esté cerca a 0.9973.
Recujerde que si X ∼ b(n, p) y p̂ es el MLE para p, se garantiza que:
# / $
p̂ (1 − p̂)
P |p̂ − p| < 3 ≈ 1.
n

Entonces, para la variable Xi , observar valores de P̂i1 o de P̂i2 tales que:

- - /
- - (0.68269)(0.31731) 1.3963
-P̂i1 − 0.68269- > 3 = √
n n
o
- - /
- - (0.9545)(0.0455) 0.6252
-P̂i2 − 0.9545- > 3 = √ ,
n n
es evidencia de que la i-ésima caracterı́stica no se comporta normalmente. Cuando estas proporcio-
nes son muy pequeñas, se puede intuir que la distribución tiene colas más largas que la normal. El
4.3. EVALUACIÓN DEL SUPUESTO DE NORMALIDAD 53

problema con este proceso es que aunque podamos verificar que a nivel univariado, se cumple la
condición antes descrita, esto no garantiza la normalidad multivariada.

Otra manera de identificar si el supuesto de normalidad se cumple a nivel univariado, es el uso


del gráfico Q − Q plot. Estos gráficos no solo son aplicables a variables normales, sino a cualquier
otra distribución de probabilidad. La idea es graficar los cuantiles muestrales versus los respectivos
cuantiles de la distribución que se espera (en este caso una normal univariada). Si en efecto los datos
muestrales provienen de una distribución normal, el gráfico debe mostrar una tendencia de los puntos
en linea recta con inclinación de 45o ; es decir, este comportamiento en el Q − Q plot, es una señal
de que el supuesto de normalidad es razonable. La importancia de detectar la no-normalidad, es que
a veces es posible corregirla.
Suponga que x1i , x2i , · · · xni representan n observaciones de una sola caracterı́stica Xi .
Sean x(1) , x(2) , · · · x(n) los estadı́sticos de orden de la muestra. Si todos los x(i) son diferentes,
exactamente i observaciones son menores o iguales a x(i) (lo cual es aproximadamente cierto si las
observaciones provienen de una distribución continua, un supuesto muy usual). La proporción ni de
i− 12
la muestra que está a la izquierda de x(i) es a veces aproximada por n
(lo cual constituye un factor
i− 38
de corrección). Algunos autores proponen cambiarlo por n+ 14
. Si Z ∼ N (0, 1) entonces:
0 q(i)   1
1 ξ2 i− 2
P (Z ≤ q(i) ) = exp − dξ = .
−ı́nf 2π 2 n

Si las observaciones provienen de una distribución normal N (μ, σ 2 ), se espera que el gráfico de los
pares (μ + σ q(i) , x(i) ) sea aproximadamente una lı́nea recta y por lo tanto σ q(i) + μ estará muy
cerca del cuantil muestral esperado. Si los parámetros μ y σ 2 son desconocidos, pueden usarse los
estimadores MLE, x̄ y 2 y graficar los pares (x̄ + s q(i) , x(i) ).
Un procedimiento más adecuado consiste en graficar los pares (σ m(i) + μ, x(i) ), donde m(i) = E[Z(i) ]
es el valor esperado del i-ésimo estadı́stico de orden en una muestra de tamaño n de una normal
estándar.
El Q-Q plot no es muy claro con tamaños de muestra conservadores (por ejemplo n ≥ 20), ya que el
gráfico puede mostrar observaciones muy alejadas de una tendencia lineal, aún cuando se sabe que
los datos provienen de una distribución normal.

Ejemplo 4.3.1. Considere los datos sobre las utilidades de 22 compañı́as. En este caso para la
variable X1 que relaciona los ingresos con las deudas. Grafique el respectivo Q-Q plot.

xmue <- compa[,1]


n <- length(xmue)
prob <- (seq(1:n)-0.5)/n
vcuan <- as.numeric(quantile(xmue,prob))*(var(xmue))^0.5 + mean(xmue)
mues <- sort(xmue)
plot(vcuan,mues)

cor(vcuan,mues)
0.9982303
54 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA

Figura 4.2: Q-Q Plot para Ind/Deuda

El respectivo gráfico se muestra en la figura 4.2. Usando la función qqnorm:

mx <- mean(xmue)
sdx <- sqrt(var(xmue))
xn <- (xmue-mx)/sdx
qqnorm(xn)

El gráfico se muestra en la figura 4.3

Ejemplo 4.3.2. Considere las tasas anuales de retorno promedio (incluı́dos los dividendos) de la
industria Dow-Jones para los años 1963 a 1972. Estas tasas fueron multiplpicadas por 100. Los datos
son:
20.6, 18.7, 14.2, −15.7, 19.0, 7.7, −11.6, 8.8, 9.8, 18.2. Construya un Q-Q plot para estas tasas. Comen-
te acerca del supuesto de normalidad.

En SAS

DATA UNO;
INPUT TASA @@;
CARDS;
20.6 18.7 14.2 -15.7 19.0
7.7 -11.6 8.8 9.8 18.2
;
RUN;

PROC MEANS DATA=UNO;


VAR TASA;
RUN;
4.3. EVALUACIÓN DEL SUPUESTO DE NORMALIDAD 55

Figura 4.3: Q-Q Plot para Ind/Deuda con qqnorm

PROC SORT DATA=UNO;


BY TASA;
RUN;
DATA UNO;
SET UNO;
TASAESTA=(TASA-8.97)/12.811;
RUN;

PROC IML;
USE UNO;
READ ALL INTO X;
AUX=(1:10)‘;
XAU=DO(-1.8, 1.8, 0.38)‘;
YAU=XAU;
PROB=(AUX-0.5)/10; | Variable TASA
QUANTIL=PROBIT(PROB); |
MAT=QUANTIL||X[,2]||XAU||YAU; | Media Dev tip
CREATE DATOS FROM MAT [COLNAME={QNORM TASAEST XAU YAU}]; |
APPEND FROM MAT; | 8.9700000 12.8111974
QUIT; |

PROC GPLOT DATA=DATOS;


PLOT TASAEST*QNORM=1 YAU*XAU=2/OVERLAY;
symbol1 v=dot i=none c=black;
symbol2 v=point i=rl c=green;
RUN;
_____________________________________________________________________________________

En R

y <- c(20.6, 18.7, 14.2, -15.7, 19.0, 7.7, -11.6, 8.8, 9.8, 18.2)
my <- mean(y)
sdy <- sqrt(var(y))
yn <- (y-my)/sdy
qqnorm(yn)
56 CAPÍTULO 4. DISTRIBUCIÓN NORMAL MULTIVARIADA

Los gráficos resultantes se muestran en la figura 4.4.

Figura 4.4: Q-Q plot usando SAS y R

Los gráficos muestran poca evidencia de que las tasas de retorno se comporten de manera normal.
La linealidad del Q-Q plot puede evaluarse al calcular el coeficiente de correlación de los puntos
(q(i) , x(i) ). Este se obtiene como:
n !
 "! "
x(j) − x̄ q(j) − q̄
i=1
rQ = / / .
!
n "2 n !
 "2
x(j) − x̄ q(j) − q̄
i=1 i=1

Se rechaza la hipótesis nula de que las observaciones son normales si

rQ < rQ (α) .

Los cuantiles para la distribución de rQ se obtienen de la tabla mostrada en la figura ??.


4.3. EVALUACIÓN DEL SUPUESTO DE NORMALIDAD 57

Figura 4.5: Cuantiles para Correlación del Q-Q plot

You might also like