ASTEF1-000. Repaso de Probabilidades y Estadística

Repaso de Probabilidad y Estadstica
Miguel Ataurima Arellano

miguel.ataurima@pucp.edu.pe
mataurimaa@uni.edu.pe
mataurima@mef.gob.pe
ndice
1. Densidades y Distribuciones
2. Momentos poblacionales
3. Esperanza
4. Momentos muestrales
5. Sesgo y Eciencia
6. Distribuciones Conjuntas
7. Distribuciones Condicionales
8. Ley de Esperanzas Iteradas
9. Independencia
10.Covarianza
11.Correlacin
12.Relacin entre Correlacin e Independencia
13.Ortogonalidad
14.Momentos poblacionales de Sumas
15.La Distribucin Normal
16.Skew y Kurtosis
17.Otras Distribuciones Univariadas
18.Funcin de verosimilitud
19.Estimacin por Mxima Verosimilitud
20.Probabilidad Lmite
21.Ley de los Grandes Nmeros
22.Convergencia en Media Cuadrtica
1.
Densidades y Distribuciones
Una variable estocstica o aleatoria X se dice que es de valor discreto si sta puede tomar slo uno
de los K valores particulares; llmese x1 ; x2 ; : : : ; xK . Su distribucin de probabilidad es un conjunto de
numeros que otorgan la probabilidad de cada resultado.
Pr [X = xk ]
probabilidad que X tome el valor xk ,
k = 1; : : : ; K
Las probabilidades suman uno

K
X
Pr [X = xk ] = 1
k=1
Asumiendo que los posibles resultados estn ordenados x1 < x2 <

tome un valor menor o igual al valor xj viene dado por
Pr [X
xj ] =
j
X
< xK , la probabilidad que X
Pr [X = xk ]
k=1
Si X es igual a una constante c con probabilidad 1, entonces X no es estocstico.

La ley de probabilidad para una variable aleatoria continua X puede ser a menudo descrita por la
funcin de densidad fX (x) con
Z
1
fX (x) dx = 1
(1)
El subndice X en fX (x) indica que sta es la densidad de la variable aleatoria X; el argumento x de

fX (x) indexa la integracin en (1). La funcin de distribucin acumulada de X (denotada por FX (a))
otorga la probabilidad que X tome un valor menor o igual que a:
FX (a)
Pr [X a]
Z a
=
fX (x) dx
(2)
2.
Momentos poblacionales
La media poblacional
de una variable aleatoria de valor contnuo X esta dada por

Z 1
=
x fX (x) dx
1
siempre que esta integral exista. (En las frmulas que siguen, asumimos por simplicidad de la exposicin
que las funciones de densidad son continuas y que todas las integrales indicadas existen). La varianza
poblacional es
Z
var [X] =
(x
fX (x) dx
La raz cuadrada de la varianza es llamda la desviacin estndar poblacional.

En general el momento r simo poblacional esta dado por
Z 1
xr fX (x) dx
1
La media poblacional puede ser descrita como el primer momento poblacional.
3.
Esperanza
La media poblacional es tambin llamada la esperanza de X, denotado por E [X] o a menudo por
simplemente EX. En general, la esperanza de una funcin g (X) est dada por
Z 1
E [g (X)] =
g (x) fX (x) dx
(3)
1
donde fX (x) dx es la densidad de X. Por ejemplo, el momento r simo poblacional de X es la esperanza

de X r .
Considere la variable aleatoria a + bX con a y b constantes. La esperanza es
Z 1
E [a + bX] =
(a + bx) fX (x) dx
1
Z 1
Z 1
= a
fX (x) dx + b
x fX (x) dx
1
= a + bE [X]
La varianza de a + bX es
var [a + bX]
= b2
[(a + bx)
(x
(a + b )]
2
fX (x) dx
fX (x) dx
= b2 var [X]
Otro resultado importante es
E X 2 = var [X] + (E[x])
4.
Momentos muestrales
Un momento muestral es una estimacin particular de un momento poblacional basado en un conjunto

de datos observados, digamos, fx1 ; x2 ; : : : ; xT g. El primer momento muestral es la media muestral
T
1X
xt
T t=1
el cual es un estimador natural de la media poblacional . La varianza muestral,

T
1X
(xt
T t=1
s2
2
da un estimado de la varianza poblacional

dado por
. De forma mas general, el momento r simo muestral est
donde xrt denota xt elevado a la potencia r.
5.
x)
T
1X r
x
T t=1 t
Sesgo y Eciencia
Sea ^ un estimador muestral de un vector de parmetros poblacionales . Por ejemplo, ^ puede ser
la media x y la media poblacional . Ele stimador se dice que es insesgado si E[^] = .
Suponga que ^ es un estimador insesgado de . El estimador ^ se dice que es eciente si este es el
caso en el que para cualquier otro estimador insesgado ^ , la siguiente matriz es semidenida positiva
P
6.
E[(^
)(^
)]
E[(^
)(^
)]
Distribuciones Conjuntas
Para dos variables aleatorias X e Y con densidad conjunta fX;Y (x; y), calculamos la probabilidad del
evento conjunto en el que X a y Y
b a partir de
Z a Z b
Pr [X a; Y
b] =
fX;Y (x; y) dy dx
1
Esta puede ser representada en terminos de la funcin de distribucin acumulada conjunta:

FX;Y (a; b) = Pr [X
a; Y
b]
La probabilidad de que X
a por s sola puede ser calculada a partir de

Z a Z 1
fX;Y (x; y) dy
Pr [X a; cualquier Y ] =
1
dx
(4)
La comparacin de (4) con (2) revela que la densidad marginal fX (x) es obtenida mediante la integracin
de la densidad conjunta fX;Y (x; y) con respecto a y :
Z 1
fX (x) =
fX;Y (x; y) dy
(5)
1
7.
Distribuciones Condicionales
La densidad condicionl de Y dado X esta dado por
8
< fX;Y (x; y)
fY jX (yjx)
fX (x)
:
0
si fX (x) > 0
(6)
en otro caso
Observe que sta satisface el requerimiento de una densidad (1)

Z 1
Z 1
fX;Y (x; y)
dy
fY jX (yjx) dy =
fX (x)
1
1
Z 1
1
=
fX;Y (x; y) dy = 1
fX (x) 1
|
{z
}
fX (x)
Una mayor implicacin obvia de la denicin en (6) es que una densidad conjunta puede ser escrita
como el producto de una densidad condicional y la densidad marginal
fX;Y (x; y) = fY jX (yjx) fX (x)
La esperanza condicional de Y dado que la variable aleatoria X toma un valor particular x es
Z 1
E [Y jX = x] =
y fY jX (yjx) dy
(7)
(8)
8.
Ley de Esperanzas Iteradas
Observe que la esperanza condicional es una funcin del valor de la variable aleatoria X. Para diferentes
realizaciones de X, la esperanza condicional ser un numero diferente. Suponga que vemos a E [Y jX] como
una variable aleatoria y tomemos su esperanza con respecto a la distribucin de X:
Z 1 Z 1
EX EY jX [Y jX] =
y fY jX (yjx) dy fX (x) dx
1
Podemos usar los resultados (7) y (5) para expresar esta esperanza como
Z 1 Z 1
Z 1Z 1
y fY jX (yjx) dy fX (x) dx =
y fY jX (yjx) fX (x) dy dx
1
1
1
1
Z 1Z 1
y fX;Y (x; y) dy dx
=
1
1
Z 1
Z 1
y
fX;Y (x; y) dx dy
=
1
1
Z 1
=
y fY (y) dy
1
= EY [Y ]
As,
EX EY jX [Y jX] = EY [Y ]
(9)
En palabras, la variable aleatoria E [Y jX] tiene la misma esperanza que una variable aleatoria Y . Esto
es conocido como la ley de esperanzas iteradas.
9.
Independencia
Las variables X e Y se dicen que son independientes si
fX;Y (x; y) = fX (x) fY (y)
(10)
Comparando (10) con (7), si Y y X son independientes, entonces

fY jX (yjx) = fY (y)
10.
Covarianza
Denotemos
a E [X] y
a E [Y ]. La covarianza poblacional entre X y Y est dada por

Z 1Z 1
(x
cov [x; y]
X ) (y
Y ) fX;Y (x; y) dy dx
Y
11.
(11)
(12)
Correlacin
La correlacin poblacional entre X e Y est dada por

corr [X; Y ]
cov [X; Y ]
p
p
var [X] var [Y ]
Si la covarianza (o correlacin) entre X e Y es cero, entonces X e Y se dicen que no estan correlacionados.
12.
Relacin entre Correlacin e Independencia
Observe que si X y Y son independientes, entonces ellos no estan correlacionados

Z 1Z 1
cov [X; Y ] =
(x
X ) (y
Y ) fX (x) fY (y) dy dx
1
1
Z 1
Z 1
=
(x
)
(y
fX (x) dx
X
Y ) fY (y) dy
1
1
3
2
0
}|
{
z
Z 1
Z 1
7
6Z 1
7
6
y
f
(y)
dy
f
(y)
dy
=
(x
)
7 fX (x) dx = 0
6
Y
Y
Y
X
5
4 1
1
1
|
{z
}
|
{z
}
1
As, si X e Y son independientes, entonces
cov [X; Y ] = 0
La proposicin contraria, sin embargo, no es verdad el hecho que X e Y no esten correlacionadas
no es suciente para deducir que ellas son independientes. Para constuir un contraejemplo, suponga que
Z e Y son variables aleatorias independientes cada una con media 0, y sea X Z Y . Entonces
cov [X; Y ]
=
=
=
=
=
E [(X
E [(ZY
E [(ZY
E [(ZY )
E [Z] E
X ) (Y
)]
E [ZY ]) (Y 0)]
E [Z] E [Y ]) Y ]
Y]
Y2 =0
Y
y as X e Y no estn correlacionados. Ellos no son, sin embargo, independientes el valor de ZY , o sea

de X, depende de Y .
5
13.
Ortogonalidad
T
Considere una muestra de tamao T de dos variables aleatorias fxt gt=1 y fyt gt=1 . Las dos variables
se dicen que son ortogonales si
T
X
xt yt = 0
t=1
As, la ortogonalidad es el anlogo de la muestra de ausencia de correlacin.

PorPejemplo, denotemos xt = 1 a una secuencia de constantes y sea yt = wt
T
(1=T ) t=1 wt es la media muestral de la variable w. Entonces x e y son ortogonales:
T
X
1 (wt
w) =
t=1
14.
T
X
wt
w, donde w
T w=0
t=1
Momentos poblacionales de Sumas
Considere la variable aleatoria aX + bY . Su media esta dada por

E [aX + bY ] = aE [X] + bE [Y ]
(13)
var [aX + bY ] = a2 var [X] + b2 var [Y ] + 2ab cov [X; Y ]
(14)
y la varianza es
Cuando X e Y no estan correlacionados
var [aX + bY ] = a2 var [X] + b2 var [Y ]
Generalizando el resultado (13) (14). Si fX1 ; X2 ; : : : ; Xn g denotan una coleccin de n variables aleatorias, entonces
E [a1 X1 + a2 X2 +
var [a1 X1 + a2 X2 +
+ an Xn ] = a1 E [X1 ] + a2 E [X2 ] +
(15)
= a21 var [X1 ] + a22 var [X2 ] +

+ a2n var [Xn ]
+2a1 a2 cov [X1 ; X2 ] + 2a1 a3 cov [X1 ; X3 ] +
+ 2a1 an cov [X1 ; Xn ]
+2a2 a3 cov [X2 ; X3 ] + 2a2 a4 cov [X2 ; X4 ] +
+ 2a2 an cov [X2 ; Xn ]
+
+
+2an 2 an 1 cov [Xn 2 ; Xn 1 ] + 2an 2 an cov [Xn 2 ; Xn ]
+2an 1 an cov [Xn 1 ; Xn ]
(16)
" n
#
n
n
n
X
X
X1 X
a2i var [Xi ] + 2
ai aj cov [Xi ; Xj ]
var
ai Xi =
+ an Xn ]
i=1
+ an E [Xn ]
i=1 j=i+1
i=1
Si los X s no estan correlacionados, esto es cov [Xi ; Xj ] = 0 para todo i 6= j, entonces

" n
#
n
X
X
var
ai Xi
=
a2i var [Xi ]
i=1
var [a1 X1 + a2 X2 +
15.
+ an Xn ]
i=1
a21 var [X1 ]
+ a22 var [X2 ] +
+ a2n var [Xn ]
(17)
La Distribucin Normal
La variable Yt tiene una distribucin Normal o Gaussiana con media

"
#
2
(yt
)
1
exp
fYt (yt ) = p
2 2
2
Escribimos
Yt
N
6
y varianza
si
(18)
para indicar que la densidad de Yt est dada por (18).

Los momentos poblacionales de orden impar centrados de una variable Gaussiana son cero:
E [(Yt
El cuarto momento centrado es
16.
) ]=0
para r = 1; 3; 5; : : :
h
E (Yt
=3
Skew y Kurtosis
El skewness (asimetra) de una variable Yt con media es representada por

h
i
3
E (Yt
)
3=2
[var (Yt )]
Una variable con un skewness negativo es mas probable a estar muy por debajo de la media que estar
por encima de la media. La kurtosis es
h
i
4
E (Yt
)
2
[var (Yt )]
Una distribucin cuya kurtosis excede de 3 tiene mas masa en las colas que una distribucin Gaussiana
con la misma varianza.
17.
Otras Distribuciones Univariadas
Sea (X1 ; X2 ; : : : ; Xn ) variables N (0; 1) independientes e identicamente distribuidas (i:i:d:), y considere

la suma de sus cuadrados
Y = X12 + X22 +
+ Xn2
Entonces Y se dice que tiene una distribucin chi-cuadrado con n grados de libertad, denotado por
2
Y
Sea X
N (0; 1) y Y
(n)
(n) con X e Y independientes. Entonces

X
Z=p
Y =n
se dice que tienen una distribucin t con n grados de libertad, denotado por
Z
Sea Y1
(n1 ) y Y2
t (n)
(n2 ) con Y1 y Y2 independientes. Entonces

Z=
Y1 =n1
Y2 =n2
se dice que tienen una distribucin F con n1 grados de libertad del numerador y n2 grados de libertad
del denominador, denotado por
Z F (n1 ; n2 )
Observe que si Z
18.
t (n), entonces Z 2
F (1; n).
Funcin de verosimilitud
Suponga que tiene una muestra de tamao T sobre alguna variable aleatoria Yt . Denotemos a
fY1 ;Y2 ;:::;YT (y1 ; y2 ; : : : ; yT ; )
como la densidad conjunta de Y1 ; Y2 ; : : : ; YT .
7
La notacin hace incapi en que la densidad conjunta se presume depender de un vector poblacional
de parmetros. Si observamos a esta densidad conjunta como una funcin de (dados los datos en Y ),
el resultado es llamado la funcin de verosimilitud muestral.
Por ejemplo, considere una muestra de T variables i:i:d: extraidas de una distribucin N ; 2 . Para
0
esta distribucin, = ; 2 , y a partir de (10) la densidad conjunta es el producto de los terminos
individuales como en (18):
fY1 ;Y2 ;:::;YT y1 ; y2 ; : : : ; yT ; ;
= fY1 y1 ; ;
T
Y
fY2 y2 ; ;
fYT yT ; ;
fYt yt ; ;
t=1
El logaritmo de la densidad conjunta es la suma de los logaritmos de estos trminos

log fY1 ;Y2 ;:::;YT y1 ; y2 ; : : : ; yT ; ;
T
X
log fYt yt ; ;
t=1
T
log
2
T
log (2 )
2
T
X
(yt
t=1
As, para una muestra de T variables aleatorias Gaussianas con media y varianza
verosimilitud logartmica muestral, denotada por L ; 2 ; y1 ; y2 ; : : : ; yT , esta dada por
L
T
log
2
; y1 ; y 2 ; : : : ; yT = k
T
X
(yt
t=1
)
2
2
la funcin de
)
2
(19)
En el clculo de la funcin de verosimilitud logaritmica muestral, cualquier trmino constante que no

involucra a los parmetros o 2 puede ser ignorado para la mayora de los propsitos. En (19), este
termino constante es
T
k
log 2
2
19.
Estimacin por Mxima Verosimilitud
Para una muestra dada de observaciones (y1 ; y2 ; : : : ; yT ), el valor de

que hace la verosimilitud
muestral lo mas grande posible es llamado el estimador de mxima verosimilitud (M LE, por sus siglas
en ingls) de . Por ejemplo, el estimador de mxima verosimilitud de la media poblacional para una
muestra i:i:d: de tamao T proveniente de una distribucin N ; 2 es encontrada tomando la derivada
de (19) con respecto a e igualando a cero:
T
@L X yt
=
@
t=1
^
|{z}
es caracterizado por
@L
=
@ 2
M LE de
(20)
m edia muestral
X (yt
T
+
2
2
2
t=1
Sustituyendo (20) en (21) y resolviendo para un

^2
|{z}
=0
T
1X
yt
T t=1
| {z }
M LE de
El M LE de
=
2
)
4
=0
(21)
(22)
obtenemos
T
1X
(yt
T t=1
|
{z
^)
varianza muestral
Asi, la media muestral es el M LE de la media poblacional y la varianza muestral es el M LE de la

varianza poblacional para una muestra i:i:d: de variables Gaussianas.
8
20.
Probabilidad Lmite
Denotemos fX1 ; X2 ; : : : ; XT g a una secuencia de variables aleatorias. A menudo estamos interesados

en saber que sucede con esta secuencia conforme T se hace grande. Por ejemplo, XT puede denotar la
media muestral de T observaciones
XT =
1
(Y1 + Y2 +
T
+ YT )
(23)
en cuyo caso podemos querer saber las propiedades de una media muestral conforme el tamao T de la
muestra aumenta de tamao.
La secuencia fX1 ; X2 ; : : : ; XT g se dice que converge en probabilidad a c si para todo > 0 y > 0
existe un valor N tal que, para todo T N ,
Pr [ jXT
cj >
]<
(24)
Cuando (24) es satisfecha, el numero c es llamado la probabilidad lmite, o plim, de la secuencia

fX1 ; X2 ; : : : ; XT g. Esto es a veces indicado como
p
XT
21.
!c
Ley de los Grandes Nmeros
En virtud de las condiciones generales descritas en el Captulo 7 del libro de Hamilton, la media
muestral (23) converge en probabilidad a la media poblacional
T
1X
Yt
T t=1
| {z }
E [Yt ]
| {z }
(25)
m edia p oblacional
m edia muestral
Cuando (25) se mantiene, decimos que la media muestral brinda una estimador consistente de la media
poblacional.
22.
Convergencia en Media Cuadrtica
Una condicin mas fuerte que la convergencia en probabilidad es la convergencia en media cuadrtica.
La secuencia fX1 ; X2 ; : : : ; XT g se dice que converge en media cuadrtica si para todo > 0 existe un
valor N tal que, para todo T N
h
i
2
E (XT c) <
(26)
Indicamos que la secuencia converge a c en media cuadrtica tal como sigue
XT
m:s:
!c
La convergencia en media cuadrtica implica convergencia en probabilidad pero la convergencia en

probabilidad no implica convergencia en media cuadrtica.

ASTEF1-000. Repaso de Probabilidades y Estadística

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

ASTEF1-000. Repaso de Probabilidades y Estadística

Uploaded by

Copyright:

Available Formats

Repaso de Probabilidad y Estadstica

Miguel Ataurima Arellano

8. Ley de Esperanzas Iteradas

12.Relacin entre Correlacin e Independencia

14.Momentos poblacionales de Sumas

15.La Distribucin Normal

17.Otras Distribuciones Univariadas

19.Estimacin por Mxima Verosimilitud

21.Ley de los Grandes Nmeros

22.Convergencia en Media Cuadrtica

probabilidad que X tome el valor xk ,

Las probabilidades suman uno

Asumiendo que los posibles resultados estn ordenados x1 < x2 <

< xK , la probabilidad que X

Si X es igual a una constante c con probabilidad 1, entonces X no es estocstico.

El subndice X en fX (x) indica que sta es la densidad de la variable aleatoria X; el argumento x de

de una variable aleatoria de valor contnuo X esta dada por

La raz cuadrada de la varianza es llamda la desviacin estndar poblacional.

La media poblacional puede ser descrita como el primer momento poblacional.

donde fX (x) dx es la densidad de X. Por ejemplo, el momento r simo poblacional de X es la esperanza

E X 2 = var [X] + (E[x])

Un momento muestral es una estimacin particular de un momento poblacional basado en un conjunto

el cual es un estimador natural de la media poblacional . La varianza muestral,

da un estimado de la varianza poblacional

. De forma mas general, el momento r simo muestral est

donde xrt denota xt elevado a la potencia r.

Esta puede ser representada en terminos de la funcin de distribucin acumulada conjunta:

a por s sola puede ser calculada a partir de

Observe que sta satisface el requerimiento de una densidad (1)

Ley de Esperanzas Iteradas

Comparando (10) con (7), si Y y X son independientes, entonces

a E [Y ]. La covarianza poblacional entre X y Y est dada por

La correlacin poblacional entre X e Y est dada por

Si la covarianza (o correlacin) entre X e Y es cero, entonces X e Y se dicen que no estan correlacionados.

Relacin entre Correlacin e Independencia

Observe que si X y Y son independientes, entonces ellos no estan correlacionados

As, si X e Y son independientes, entonces

y as X e Y no estn correlacionados. Ellos no son, sin embargo, independientes el valor de ZY , o sea

As, la ortogonalidad es el anlogo de la muestra de ausencia de correlacin.

Momentos poblacionales de Sumas

Considere la variable aleatoria aX + bY . Su media esta dada por

var [aX + bY ] = a2 var [X] + b2 var [Y ] + 2ab cov [X; Y ]

= a21 var [X1 ] + a22 var [X2 ] +

Si los X s no estan correlacionados, esto es cov [Xi ; Xj ] = 0 para todo i 6= j, entonces

+ a22 var [X2 ] +

+ a2n var [Xn ]

La variable Yt tiene una distribucin Normal o Gaussiana con media

para indicar que la densidad de Yt est dada por (18).

El skewness (asimetra) de una variable Yt con media es representada por

Otras Distribuciones Univariadas

Sea (X1 ; X2 ; : : : ; Xn ) variables N (0; 1) independientes e identicamente distribuidas (i:i:d:), y considere

(n) con X e Y independientes. Entonces

(n2 ) con Y1 y Y2 independientes. Entonces

El logaritmo de la densidad conjunta es la suma de los logaritmos de estos trminos

En el clculo de la funcin de verosimilitud logaritmica muestral, cualquier trmino constante que no

Estimacin por Mxima Verosimilitud

Para una muestra dada de observaciones (y1 ; y2 ; : : : ; yT ), el valor de

Sustituyendo (20) en (21) y resolviendo para un

Asi, la media muestral es el M LE de la media poblacional y la varianza muestral es el M LE de la

Denotemos fX1 ; X2 ; : : : ; XT g a una secuencia de variables aleatorias. A menudo estamos interesados

Cuando (24) es satisfecha, el numero c es llamado la probabilidad lmite, o plim, de la secuencia

Ley de los Grandes Nmeros

Convergencia en Media Cuadrtica

La convergencia en media cuadrtica implica convergencia en probabilidad pero la convergencia en