You are on page 1of 9

Repaso de Probabilidad y Estadstica

Miguel Ataurima Arellano


miguel.ataurima@pucp.edu.pe
mataurimaa@uni.edu.pe
mataurima@mef.gob.pe

ndice
1. Densidades y Distribuciones

2. Momentos poblacionales

3. Esperanza

4. Momentos muestrales

5. Sesgo y Eciencia

6. Distribuciones Conjuntas

7. Distribuciones Condicionales

8. Ley de Esperanzas Iteradas

9. Independencia

10.Covarianza

11.Correlacin

12.Relacin entre Correlacin e Independencia

13.Ortogonalidad

14.Momentos poblacionales de Sumas

15.La Distribucin Normal

16.Skew y Kurtosis

17.Otras Distribuciones Univariadas

18.Funcin de verosimilitud

19.Estimacin por Mxima Verosimilitud

20.Probabilidad Lmite

21.Ley de los Grandes Nmeros

22.Convergencia en Media Cuadrtica

1.

Densidades y Distribuciones

Una variable estocstica o aleatoria X se dice que es de valor discreto si sta puede tomar slo uno
de los K valores particulares; llmese x1 ; x2 ; : : : ; xK . Su distribucin de probabilidad es un conjunto de
numeros que otorgan la probabilidad de cada resultado.
Pr [X = xk ]

probabilidad que X tome el valor xk ,

k = 1; : : : ; K

Las probabilidades suman uno


K
X

Pr [X = xk ] = 1

k=1

Asumiendo que los posibles resultados estn ordenados x1 < x2 <


tome un valor menor o igual al valor xj viene dado por
Pr [X

xj ] =

j
X

< xK , la probabilidad que X

Pr [X = xk ]

k=1

Si X es igual a una constante c con probabilidad 1, entonces X no es estocstico.


La ley de probabilidad para una variable aleatoria continua X puede ser a menudo descrita por la
funcin de densidad fX (x) con
Z
1

fX (x) dx = 1

(1)

El subndice X en fX (x) indica que sta es la densidad de la variable aleatoria X; el argumento x de


fX (x) indexa la integracin en (1). La funcin de distribucin acumulada de X (denotada por FX (a))
otorga la probabilidad que X tome un valor menor o igual que a:
FX (a)

Pr [X a]
Z a
=
fX (x) dx

(2)

2.

Momentos poblacionales
La media poblacional

de una variable aleatoria de valor contnuo X esta dada por


Z 1
=
x fX (x) dx
1

siempre que esta integral exista. (En las frmulas que siguen, asumimos por simplicidad de la exposicin
que las funciones de densidad son continuas y que todas las integrales indicadas existen). La varianza
poblacional es
Z
var [X] =

(x

fX (x) dx

La raz cuadrada de la varianza es llamda la desviacin estndar poblacional.


En general el momento r simo poblacional esta dado por
Z 1
xr fX (x) dx
1

La media poblacional puede ser descrita como el primer momento poblacional.

3.

Esperanza

La media poblacional es tambin llamada la esperanza de X, denotado por E [X] o a menudo por
simplemente EX. En general, la esperanza de una funcin g (X) est dada por
Z 1
E [g (X)] =
g (x) fX (x) dx
(3)
1

donde fX (x) dx es la densidad de X. Por ejemplo, el momento r simo poblacional de X es la esperanza


de X r .
Considere la variable aleatoria a + bX con a y b constantes. La esperanza es
Z 1
E [a + bX] =
(a + bx) fX (x) dx
1
Z 1
Z 1
= a
fX (x) dx + b
x fX (x) dx
1

= a + bE [X]

La varianza de a + bX es
var [a + bX]

= b2

[(a + bx)

(x

(a + b )]
2

fX (x) dx

fX (x) dx

= b2 var [X]
Otro resultado importante es

E X 2 = var [X] + (E[x])

4.

Momentos muestrales

Un momento muestral es una estimacin particular de un momento poblacional basado en un conjunto


de datos observados, digamos, fx1 ; x2 ; : : : ; xT g. El primer momento muestral es la media muestral
T
1X
xt
T t=1

el cual es un estimador natural de la media poblacional . La varianza muestral,


T
1X
(xt
T t=1

s2
2

da un estimado de la varianza poblacional


dado por

. De forma mas general, el momento r simo muestral est

donde xrt denota xt elevado a la potencia r.

5.

x)

T
1X r
x
T t=1 t

Sesgo y Eciencia

Sea ^ un estimador muestral de un vector de parmetros poblacionales . Por ejemplo, ^ puede ser
la media x y la media poblacional . Ele stimador se dice que es insesgado si E[^] = .
Suponga que ^ es un estimador insesgado de . El estimador ^ se dice que es eciente si este es el
caso en el que para cualquier otro estimador insesgado ^ , la siguiente matriz es semidenida positiva
P

6.

E[(^

)(^

)]

E[(^

)(^

)]

Distribuciones Conjuntas

Para dos variables aleatorias X e Y con densidad conjunta fX;Y (x; y), calculamos la probabilidad del
evento conjunto en el que X a y Y
b a partir de
Z a Z b
Pr [X a; Y
b] =
fX;Y (x; y) dy dx
1

Esta puede ser representada en terminos de la funcin de distribucin acumulada conjunta:


FX;Y (a; b) = Pr [X

a; Y

b]

La probabilidad de que X

a por s sola puede ser calculada a partir de


Z a Z 1
fX;Y (x; y) dy
Pr [X a; cualquier Y ] =
1

dx

(4)

La comparacin de (4) con (2) revela que la densidad marginal fX (x) es obtenida mediante la integracin
de la densidad conjunta fX;Y (x; y) con respecto a y :
Z 1
fX (x) =
fX;Y (x; y) dy
(5)
1

7.

Distribuciones Condicionales
La densidad condicionl de Y dado X esta dado por
8
< fX;Y (x; y)
fY jX (yjx)
fX (x)
:
0

si fX (x) > 0

(6)

en otro caso

Observe que sta satisface el requerimiento de una densidad (1)


Z 1
Z 1
fX;Y (x; y)
dy
fY jX (yjx) dy =
fX (x)
1
1
Z 1
1
=
fX;Y (x; y) dy = 1
fX (x) 1
|
{z
}
fX (x)

Una mayor implicacin obvia de la denicin en (6) es que una densidad conjunta puede ser escrita
como el producto de una densidad condicional y la densidad marginal
fX;Y (x; y) = fY jX (yjx) fX (x)
La esperanza condicional de Y dado que la variable aleatoria X toma un valor particular x es
Z 1
E [Y jX = x] =
y fY jX (yjx) dy

(7)

(8)

8.

Ley de Esperanzas Iteradas

Observe que la esperanza condicional es una funcin del valor de la variable aleatoria X. Para diferentes
realizaciones de X, la esperanza condicional ser un numero diferente. Suponga que vemos a E [Y jX] como
una variable aleatoria y tomemos su esperanza con respecto a la distribucin de X:
Z 1 Z 1
EX EY jX [Y jX] =
y fY jX (yjx) dy fX (x) dx
1

Podemos usar los resultados (7) y (5) para expresar esta esperanza como
Z 1 Z 1
Z 1Z 1
y fY jX (yjx) dy fX (x) dx =
y fY jX (yjx) fX (x) dy dx
1
1
1
1
Z 1Z 1
y fX;Y (x; y) dy dx
=
1
1
Z 1
Z 1
y
fX;Y (x; y) dx dy
=
1
1
Z 1
=
y fY (y) dy
1

= EY [Y ]

As,
EX EY jX [Y jX] = EY [Y ]

(9)

En palabras, la variable aleatoria E [Y jX] tiene la misma esperanza que una variable aleatoria Y . Esto
es conocido como la ley de esperanzas iteradas.

9.

Independencia
Las variables X e Y se dicen que son independientes si
fX;Y (x; y) = fX (x) fY (y)

(10)

Comparando (10) con (7), si Y y X son independientes, entonces


fY jX (yjx) = fY (y)

10.

Covarianza

Denotemos

a E [X] y

a E [Y ]. La covarianza poblacional entre X y Y est dada por


Z 1Z 1
(x
cov [x; y]
X ) (y
Y ) fX;Y (x; y) dy dx
Y

11.

(11)

(12)

Correlacin

La correlacin poblacional entre X e Y est dada por


corr [X; Y ]

cov [X; Y ]
p
p
var [X] var [Y ]

Si la covarianza (o correlacin) entre X e Y es cero, entonces X e Y se dicen que no estan correlacionados.

12.

Relacin entre Correlacin e Independencia

Observe que si X y Y son independientes, entonces ellos no estan correlacionados


Z 1Z 1
cov [X; Y ] =
(x
X ) (y
Y ) fX (x) fY (y) dy dx
1
1
Z 1
Z 1
=
(x
)
(y
fX (x) dx
X
Y ) fY (y) dy
1
1
3
2
0
}|
{
z
Z 1
Z 1
7
6Z 1
7
6
y
f
(y)
dy
f
(y)
dy
=
(x
)
7 fX (x) dx = 0
6
Y
Y
Y
X
5
4 1
1
1
|
{z
}
|
{z
}
1

As, si X e Y son independientes, entonces

cov [X; Y ] = 0
La proposicin contraria, sin embargo, no es verdad el hecho que X e Y no esten correlacionadas
no es suciente para deducir que ellas son independientes. Para constuir un contraejemplo, suponga que
Z e Y son variables aleatorias independientes cada una con media 0, y sea X Z Y . Entonces
cov [X; Y ]

=
=
=
=
=

E [(X
E [(ZY
E [(ZY
E [(ZY )
E [Z] E

X ) (Y

)]
E [ZY ]) (Y 0)]
E [Z] E [Y ]) Y ]
Y]
Y2 =0
Y

y as X e Y no estn correlacionados. Ellos no son, sin embargo, independientes el valor de ZY , o sea


de X, depende de Y .
5

13.

Ortogonalidad
T

Considere una muestra de tamao T de dos variables aleatorias fxt gt=1 y fyt gt=1 . Las dos variables
se dicen que son ortogonales si
T
X
xt yt = 0
t=1

As, la ortogonalidad es el anlogo de la muestra de ausencia de correlacin.


PorPejemplo, denotemos xt = 1 a una secuencia de constantes y sea yt = wt
T
(1=T ) t=1 wt es la media muestral de la variable w. Entonces x e y son ortogonales:
T
X

1 (wt

w) =

t=1

14.

T
X

wt

w, donde w

T w=0

t=1

Momentos poblacionales de Sumas

Considere la variable aleatoria aX + bY . Su media esta dada por


E [aX + bY ] = aE [X] + bE [Y ]

(13)

var [aX + bY ] = a2 var [X] + b2 var [Y ] + 2ab cov [X; Y ]

(14)

y la varianza es
Cuando X e Y no estan correlacionados
var [aX + bY ] = a2 var [X] + b2 var [Y ]
Generalizando el resultado (13) (14). Si fX1 ; X2 ; : : : ; Xn g denotan una coleccin de n variables aleatorias, entonces
E [a1 X1 + a2 X2 +
var [a1 X1 + a2 X2 +

+ an Xn ] = a1 E [X1 ] + a2 E [X2 ] +

(15)

= a21 var [X1 ] + a22 var [X2 ] +


+ a2n var [Xn ]
+2a1 a2 cov [X1 ; X2 ] + 2a1 a3 cov [X1 ; X3 ] +
+ 2a1 an cov [X1 ; Xn ]
+2a2 a3 cov [X2 ; X3 ] + 2a2 a4 cov [X2 ; X4 ] +
+ 2a2 an cov [X2 ; Xn ]
+
+
+2an 2 an 1 cov [Xn 2 ; Xn 1 ] + 2an 2 an cov [Xn 2 ; Xn ]
+2an 1 an cov [Xn 1 ; Xn ]
(16)
" n
#
n
n
n
X
X
X1 X
a2i var [Xi ] + 2
ai aj cov [Xi ; Xj ]
var
ai Xi =
+ an Xn ]

i=1

+ an E [Xn ]

i=1 j=i+1

i=1

Si los X s no estan correlacionados, esto es cov [Xi ; Xj ] = 0 para todo i 6= j, entonces


" n
#
n
X
X
var
ai Xi
=
a2i var [Xi ]
i=1

var [a1 X1 + a2 X2 +

15.

+ an Xn ]

i=1
a21 var [X1 ]

+ a22 var [X2 ] +

+ a2n var [Xn ]

(17)

La Distribucin Normal

La variable Yt tiene una distribucin Normal o Gaussiana con media


"
#
2
(yt
)
1
exp
fYt (yt ) = p
2 2
2
Escribimos
Yt

N
6

y varianza

si
(18)

para indicar que la densidad de Yt est dada por (18).


Los momentos poblacionales de orden impar centrados de una variable Gaussiana son cero:
E [(Yt
El cuarto momento centrado es

16.

) ]=0

para r = 1; 3; 5; : : :

h
E (Yt

=3

Skew y Kurtosis

El skewness (asimetra) de una variable Yt con media es representada por


h
i
3
E (Yt
)
3=2

[var (Yt )]

Una variable con un skewness negativo es mas probable a estar muy por debajo de la media que estar
por encima de la media. La kurtosis es
h
i
4
E (Yt
)
2

[var (Yt )]

Una distribucin cuya kurtosis excede de 3 tiene mas masa en las colas que una distribucin Gaussiana
con la misma varianza.

17.

Otras Distribuciones Univariadas

Sea (X1 ; X2 ; : : : ; Xn ) variables N (0; 1) independientes e identicamente distribuidas (i:i:d:), y considere


la suma de sus cuadrados
Y = X12 + X22 +
+ Xn2
Entonces Y se dice que tiene una distribucin chi-cuadrado con n grados de libertad, denotado por
2

Y
Sea X

N (0; 1) y Y

(n)

(n) con X e Y independientes. Entonces


X
Z=p
Y =n

se dice que tienen una distribucin t con n grados de libertad, denotado por
Z
Sea Y1

(n1 ) y Y2

t (n)

(n2 ) con Y1 y Y2 independientes. Entonces


Z=

Y1 =n1
Y2 =n2

se dice que tienen una distribucin F con n1 grados de libertad del numerador y n2 grados de libertad
del denominador, denotado por
Z F (n1 ; n2 )
Observe que si Z

18.

t (n), entonces Z 2

F (1; n).

Funcin de verosimilitud

Suponga que tiene una muestra de tamao T sobre alguna variable aleatoria Yt . Denotemos a
fY1 ;Y2 ;:::;YT (y1 ; y2 ; : : : ; yT ; )
como la densidad conjunta de Y1 ; Y2 ; : : : ; YT .
7

La notacin hace incapi en que la densidad conjunta se presume depender de un vector poblacional
de parmetros. Si observamos a esta densidad conjunta como una funcin de (dados los datos en Y ),
el resultado es llamado la funcin de verosimilitud muestral.
Por ejemplo, considere una muestra de T variables i:i:d: extraidas de una distribucin N ; 2 . Para
0
esta distribucin, = ; 2 , y a partir de (10) la densidad conjunta es el producto de los terminos
individuales como en (18):
fY1 ;Y2 ;:::;YT y1 ; y2 ; : : : ; yT ; ;

= fY1 y1 ; ;
T
Y

fY2 y2 ; ;

fYT yT ; ;

fYt yt ; ;

t=1

El logaritmo de la densidad conjunta es la suma de los logaritmos de estos trminos


log fY1 ;Y2 ;:::;YT y1 ; y2 ; : : : ; yT ; ;

T
X

log fYt yt ; ;

t=1

T
log
2

T
log (2 )
2

T
X
(yt

t=1

As, para una muestra de T variables aleatorias Gaussianas con media y varianza
verosimilitud logartmica muestral, denotada por L ; 2 ; y1 ; y2 ; : : : ; yT , esta dada por
L

T
log
2

; y1 ; y 2 ; : : : ; yT = k

T
X
(yt

t=1

)
2
2

la funcin de

)
2

(19)

En el clculo de la funcin de verosimilitud logaritmica muestral, cualquier trmino constante que no


involucra a los parmetros o 2 puede ser ignorado para la mayora de los propsitos. En (19), este
termino constante es
T
k
log 2
2

19.

Estimacin por Mxima Verosimilitud

Para una muestra dada de observaciones (y1 ; y2 ; : : : ; yT ), el valor de


que hace la verosimilitud
muestral lo mas grande posible es llamado el estimador de mxima verosimilitud (M LE, por sus siglas
en ingls) de . Por ejemplo, el estimador de mxima verosimilitud de la media poblacional para una
muestra i:i:d: de tamao T proveniente de una distribucin N ; 2 es encontrada tomando la derivada
de (19) con respecto a e igualando a cero:
T

@L X yt
=
@
t=1

^
|{z}

es caracterizado por
@L
=
@ 2

M LE de

(20)

m edia muestral

X (yt
T
+
2
2
2
t=1

Sustituyendo (20) en (21) y resolviendo para un


^2
|{z}

=0

T
1X
yt
T t=1
| {z }

M LE de

El M LE de

=
2

)
4

=0

(21)

(22)

obtenemos
T
1X
(yt
T t=1
|
{z

^)

varianza muestral

Asi, la media muestral es el M LE de la media poblacional y la varianza muestral es el M LE de la


varianza poblacional para una muestra i:i:d: de variables Gaussianas.
8

20.

Probabilidad Lmite

Denotemos fX1 ; X2 ; : : : ; XT g a una secuencia de variables aleatorias. A menudo estamos interesados


en saber que sucede con esta secuencia conforme T se hace grande. Por ejemplo, XT puede denotar la
media muestral de T observaciones
XT =

1
(Y1 + Y2 +
T

+ YT )

(23)

en cuyo caso podemos querer saber las propiedades de una media muestral conforme el tamao T de la
muestra aumenta de tamao.
La secuencia fX1 ; X2 ; : : : ; XT g se dice que converge en probabilidad a c si para todo > 0 y > 0
existe un valor N tal que, para todo T N ,
Pr [ jXT

cj >

]<

(24)

Cuando (24) es satisfecha, el numero c es llamado la probabilidad lmite, o plim, de la secuencia


fX1 ; X2 ; : : : ; XT g. Esto es a veces indicado como
p

XT

21.

!c

Ley de los Grandes Nmeros

En virtud de las condiciones generales descritas en el Captulo 7 del libro de Hamilton, la media
muestral (23) converge en probabilidad a la media poblacional
T
1X
Yt
T t=1
| {z }

E [Yt ]
| {z }

(25)

m edia p oblacional

m edia muestral

Cuando (25) se mantiene, decimos que la media muestral brinda una estimador consistente de la media
poblacional.

22.

Convergencia en Media Cuadrtica

Una condicin mas fuerte que la convergencia en probabilidad es la convergencia en media cuadrtica.
La secuencia fX1 ; X2 ; : : : ; XT g se dice que converge en media cuadrtica si para todo > 0 existe un
valor N tal que, para todo T N
h
i
2
E (XT c) <
(26)
Indicamos que la secuencia converge a c en media cuadrtica tal como sigue
XT

m:s:

!c

La convergencia en media cuadrtica implica convergencia en probabilidad pero la convergencia en


probabilidad no implica convergencia en media cuadrtica.

You might also like