You are on page 1of 110

1.

CAP

ITULO 1
Resumo dos Dados
1.1. Tipos de variaveis. Um analista da Bolsa de Valores esta in-
teressado em analisar o perl dos investidores de sua Corretora. Em
um conjunto de 500 investidores(as) escolhidos ao acaso descobriu que
a grande maioria, 78%, eram homens com formac ao superior e com
idade, no geral, acima de 25 anos. Notou que os mais velhos tinham
um perl de investimento arrojado e os mais novos, conservador. A
quantidade, em reais, das aplicacoes variavam normalmente na reta
real. Um subconjunto de 50 observac oes resultou na tabela 1.1. , na
qual um elemento da amostra era observado quanto ` as vari aveis idade,
sexo, investimento (quantia investida em milhares de reais) e perl do
investidor ( conservador, moderado ou arrojado).
As variaveis observadas pelo analista sao aleat orias, n ao determinstica,
que trazem implicitamente uma ideia probabilstica. Por exemplo, da
frase
entre os quinhentos investidores 22% s ao mulheres
entendemos que ao repetirmos, um grande n umero de vezes, o ex-
perimento de escolhermos casualmente um investidor da Corretora e
observarmos seu sexo esperamos que em 22% de tais experimentos o
resultado seja uma mulher.
As caractersticas de uma variavel aleat oria sao:
- Os resultados da vari avel se repetem e, nem sempre, sao os mesmos.
- Conhecemos todos os possveis resultados mas nao podemos prever
uma realizac ao futura.
- Em termos das frequencias relativas os resultados se repetem de
maneira marcante.
As vari aveis aleatorias se classicam em qualitativas e quantitativas.
As realizac oes de uma vari avel qualitativa resultam em um atributo e
as realizac oes de uma variavel quantitativa s ao resultadoss numericos
ou mensur aveis. Por sua vez uma variavel qualitativa se classica
como nominal, isto e, as observac oes n ao s ao orden aveis, ou ordinal
quando orden aveis. As variaveis quantitativas se subdividem em disc-
retas, quando seus possveis valores formam um conjunto enumer avel
e contnuas, quando assumem valores em um intervalo da reta real que
n ao e enumeravel.
1
2
Tabela 1.1 - Perl dos Investidores
Idade Sexo Investidor Aplicac ao
31 H MO 101,33
23 M CO 82,47
29 H CO 104,88
31 M MO 109,74
35 H AR 132,45
31 H MO 116,5
25 M CO 70,46
42 H MO 112,13
28 H CO 91,33
35 H AR 128,78
29 H MO 110,4
38 M MO 102,43
43 H AR 131,38
23 H CO 86,68
28 H MO 114,61
26 H CO 87,21
36 H MO 119,09
42 H AR 130,71
38 H AR 123,19
31 H MO 97,75
28 M CO 93,08
43 H AR 132,46
38 H MO 112,82
29 H CO 101,73
35 M MO 112,59
23 H CO 88,11
28 H CO 95,66
26 H CO 76,38
39 H AR 124,17
31 H MO 110,51
42 H MO 119,89
29 M CO 73,96
37 H MO 120,58
42 H AR 121,19
44 H AR 170,1
25 M CO 65,48
29 H MO 116,31
26 H CO 80,59
37 M CO 86,42
31 M CO 93,73
3
Exemplos das variaveis qualitativas sao: sexo, grau de instruc ao,
perl do investidor ( arrojado, moderado, conservador), estado civil,
etc.
Exemplos de variaveis quantitativas s ao: ndice di ario de valorizacao
de ac oes na BOVESPA, sal ario dos analistas da Corretora, custo dos
sinistros associados com uma ap olice de seguros de autom oveis, idade
do investidor, valor medio mensal de a coes do setor eletrico, altura dos
alunos da faculdade, etc
Figura 1.1 - Classicac ao de uma vari avel
A classicac ao delineada acima e relevante pois os metodos de an alise
dos dados a serem utilizados variam de acordo com tal classicac ao.
Em algumas situac oes e conveniente atribuir valores numericos ` as real-
izac oes de uma vari avel qualitativa e proceder em sua analise como se
fosse quantitativa. Neste caso prestaremos atenc ao nas interpretacoes
dos resultados.
O primeiro objetivo da an alise de um conjunto de dados e resumi-
lo, descritiva e gracamente, com o prop osito de inferir sobre a forma
de um modelo probabilstico e de seus par ametros que representem
adequadamente a vari avel em quest ao.
A primeira forma de tal resumo e atraves das distribuic oes de frequencias.
1.2. Distribuic oes de frequencias e resumos gracos. A distribuicao
de frequencia e uma maneira de dispor o conjunto dos dados em uma
tabela de forma a resumi-lo e ter uma ideia de sua distribuic ao. Em
uma primeira coluna indicamos as classes, ou categorias, da variavel,
4
em uma segunda coluna registramos, para cada classe, o valor abso-
luto, ou frequencia absoluta, denida como o n umero de observac oes
em cada categoria, denotada por n
i
e na terceira coluna a proporc ao
de observa coes na respectiva categoria, ou frequencia relativa, deno-
tada por f
i
. Se n e o n umero total de observac oes e k e o n umero de
categorias, ent ao

k
i=1
n
i
= n e f
i
=
n
i
n
com

k
i=1
f
i
= 1.
Tabela 1.2- Tabela de frequencia
Classes Frequencias absolutas Frequencias relativas
Classe
1
n
1
f
1
Classe
2
n
2
f
2
... ... ...
Classe
k
n
k
f
k
Totais n 1
Exemplo 1.1. O analista da Corretora escolheu casualmemte 50 de
seus investidores e observou as vari aveis: sexo, idade, perl do in-
vestidor e a quantia, em milhares de reais, de seus investimentos. Os
resultados estao na tabela 1.1. Para a variavel qualitativa nominal sexo
um resumo das observacoes e
Tabela 1.3- Tabela de frequencia da vari avel Sexo
Sexo Frequencias absolutas Frequencias relativas
Mulher 10 0, 25
Homem 30 0, 75
Totais 40 1
O graco de barras fornece um resumo visual das observac oes de
uma variavel qualitativa. Consiste em construir ret angulos paralelos
em que a altura e proporcional ` a grandeza a ser representada, n
i
ou f
i
.
A base do ret angulo e arbitraria, mas igual para todas as classes.
Figura 1.2 - Gr aco de barras da variavel Sexo
5
Uma outra forma de representac ao seria o gr aco de composicao em
setores, em forma de um crculo, dividido em partes que representam
as classes e suas grandezas.
Figura 1.3 - Gr aco em setores da variavel Sexo
Para a vari avel qualitativa ordenavel Perl do Investidor a tabela de
frequencia e
Tabela 1.4- Tabela de frequencia da vari avel Perl do Investidor
Perfil Frequencias absolutas Frequencias relativas
conservador 16 0, 4
Moderado 15 0, 375
Arrojado 9 0, 225
Totais 40 1
Figura 1.4 - Gr aco de barras da variavel Perl do investidor
6
Observacao 1.2. A coluna das frequencias relativas e importante pois
permite comparar amostras de diferente tamanhos. Em uma amostra
de 500 investidores poderamos obter
Tabela 1.5- Tabela de frequencia da vari avel Perl do Investidor
Perfil Frequencias absolutas Frequencias relativas
conservador 190 0, 38
Moderado 185 0, 37
Arrojado 125 0, 25
Totais 500 1
A comparac ao das duas tabelas acima atraves das frequecias abso-
lutas nao e apropriada mas e factivel atraves das frequecias relativas.
A variavel idade e quantitativa discreta e sua distribui cao de frequencia
e
Tabela 1.6- Tabela de frequencia da vari avel Idade
Idade Frequencias absolutas Frequencias relativas
23 3 0, 075
25 2 0, 05
26 3 0, 075
28 4 0, 1
29 5 0, 125
31 6 0, 15
35 3 0, 075
36 1 0, 025
37 2 0, 05
38 3 0, 075
39 1 0, 025
42 4 0, 1
43 2 0, 05
44 1 0, 025
Totais 40 1
A representac ao natural de uma vari avel quantitativa discreta e atraves
do gr aco de frequencias onde, em um sistema cartesiano, representa-
mos no eixo das abscissas os valores da variavel e no eixo das ordenadas
as grandezas n
i
ou f
i
, correspondentes.
Figura 1.5 - Gr aco de frequencias da variavel Idade
7
Os valores das vari aveis quantitativa contnuas n ao se repetem, quase
certamente, e uma representacao como a anterior ca prejudicada pois
n ao teramos um resumo. Representamos tais valores em intervalos
de classes. Para denir tais classes devemos observar o valor mnimo
(min) e o valor m aximo (max) do conjunto de observacoes, calcular
a amplitude, A = max min e dividir tal amplitude em um n umero
conveniente de intervalos. Para facilitar, nesta primeira abordagem,
consideramos intervalos de mesmo comprimento.
Tabela 1.7- Tabela de frequencia da vari avel Investimento
Investimento Frequencias absolutas Frequencias relativas
70 80 3 0, 08
80 90 6 0, 16
90 100 5 0, 13
100 110 5 0, 13
110 120 10 0, 26
120 130 5 0, 13
130 140 4 0, 11
Totais 38 1
A notac ao indica que a referida classe contem o valor ` a esquerda
mas nao contem o valor ` a direita, como na notac ao por intervalo [, ).
Notemos que excluimos o valor 170, 1 por se tratar de um valor estranho
ao conjunto de observac oes e o valor 65, 48 por conveniencia retendo
38 observa coes. Observemos que o n umero de classes n ao deve ser
grande pois n ao resumiramos as observac oes, mas nao muito pequeno
pois perderamos muita informacao, ou seja, sabemos que 6 observac oes
est ao entre 80 e 90 mas desconhecemos quais s ao.
A representac ao gr aca para as variaveis quantitativas, resumida
como na tabela acima, e atraves de um histograma. O histograma e um
gr aco de ret angulos contguos cujas areas somam um (1). Claramente,
se xarmos a area do ret angulo, que representa a classe i, como sendo
igual a f
i
temos resolvida a questao pois

k
i=1
f
i
= 1. A area de um
ret angulo A e igual ` a sua base, , vezes a sua altura H e, portanto,
para que a area do retangulo A
i
, que representa a classe i, de base
i
,
seja igual a f
i
, a sua altura tem que ser igual a H
i
=
f
i

i
, denominada
densidade de frequencia por unidade da vari avel.
Figura 1.6 - Histograma da vari avel Investimento
8
Observacao 1.3.
`
As vezes torna-se necess ario conhecer o valor de uma
vari avel contnua representada atraves do seu resumo, como na Tabela
1.7. Na pr atica admite-se que os valores em uma classe, intervalo,
s ao uniformemente distribuidos e convenciona-se como o valor da ob-
serva cao o ponto medio da classe. Tal procedimento denomina-se dis-
cretizac ao da variavel. O gr aco de frequencia da variavel Y e:
Figura 1.7 - Gr aco de frequencia da variavel Investimento
Por outro lado, convenientemente, podemos resumir uma variavel
discreta como contnua. O resumo da vari avel X = Idade torna-se:
Tabela 1.8- Tabela de frequencia da vari avel Idade
Idade Frequencias absolutas Frequencias relativas
20 25 3 0, 08
25 30 14 0, 35
30 35 6 0, 15
35 40 10 0, 25
40 45 7 0, 17
Totais 40 1
Observacao 1.4. Na construc ao da tabela de frequencias os intervalos
de classes podem ter comprimentos diferentes. Uma outra distribuic ao
de frequencias para a variavel idade, interpretada como uma vari avel
contnua pode ser
Tabela 1.9- Tabela de frequencia da vari avel Idade
9
Idade Frequencias absolutas Frequencias relativas
20 25 3 0, 08
25 35 20 0, 5
35 40 10 0, 25
40 45 7 0, 17
Totais 40 1
indicando uma frequencia relativa maior na classe 25 35. Tal con-
clus ao e falha pois a classe 25 35 tem comprimento maior que as
outras classes. Obtemos uma interpretac ao correta considerando as
frequencias relativas por unidade da variavel:
Tabela 1.10- Tabela de frequencia da vari avel Idade
Idade n
i
f
i

i
n
i

i
f
i

i
20 25 3 0, 08 5 0, 6 0,016
25 30 20 0, 5 10 2 0,05
35 55 10 0, 25 5 2 0,05
40 40 7 0, 17 5 1, 4 0,02
total 40 1
que indica que as classes 25 35 e 35 40 tem as mesmas frequencias
relativas por unidade da vari avel.
Observacao 1.5. Saber que a media da prova de Estatstica da classe e
6 e importante, contudo saber como as notas da classe se distribuiram e
mais importante. O histograma da uma ideia da forma da distribuicao
das observacoes contudo produz certa perda de informac ao. Um pro-
cedimento alternativo, onde conservamos os valores observados, e o
diagrama de RAMOS E FOLHAS. Este procedimento consiste em sep-
arar cada observac ao em duas partes.
`
A esquerda de uma reta vertical
anotamos o valor do RAMO e ` a sua direita as FOLHAS correspon-
dentes ` aquele RAMO. Os ramos e as folhas sao escolhidos arbitraria
mas convenientemente. Por exemplo, considerando as observacoes da
vari avel investimento da Tabela 1.1.,desprezamos as partes decimais e
escolhemos as unidades como sendo as folhas:
10
Figura 1.8 - Ramo e folha da vari avel Investimento
6 5
7 0 3 6
8 0 2 6 6 7 8
9 1 3 3 5 7
10 1 1 2 4 9
11 0 0 2 2 2 4 6 6 9 4
12 0 1 3 4 8
13 0 1 2 2

E interessante comparar o histograma da Figura 1.6 com o Ramo e


Folhas da Figura 1.8 .
11
2. CAP

ITULO 2
Medidas resumo
2.1. Medidas de Localizacao. Uma outra maneira de resumir as
observa coes e atraves de medidas numericas que resumem a serie de
observa coes em um unico n umero. Destacaremos algumas medidas
de localizac ao e de dispers ao. Exemplos de medidas de localizac oes
s ao o mnimo, o maximo, os quartis, a moda, a mediana e a media,
dentre outras. De medidas de dispers oes s ao a amplitude, o intervalo
interquartil, a vari ancia, o desvio medio absoluto, etc..
A Moda ( mo) e o valor mais frequente das observac oes e pode ser
calculada para qualquer conjunto de dados. Em nosso exemplo a moda
da vari avel Sexo e a observac ao mo = masculino. A variavel Perl do
Investidor tem por moda o valor mo = perl conservador.
Para simplicar nossas anotac oes denotaremos as vari aveis quanti-
tativas por letras latinas mai usculas e os seus valores por letras latinas
min usculas. Assim poderemos denotar a variavel Idade por X e seus
valores por x. Valores distintos da vari avel podem ser anotados por x
i
.
A variavel X = Idade tem moda igual a mo = 31. A vari avel
Y = Investimento n ao apresenta uma moda pois seus valores s ao dis-
tintos. Se adotamos sua forma resumida, como na tabela de frequencia,
podemos dizer que a moda e, aproximadamente, mo = 115, o ponto
medio da classe [110, 120).
Uma outra medida de localizacao e a Mediana (md). Esta medida
de tendencia central e o valor que ocupa a posic ao central da serie de
observa coes quando estao ordenadas segundo sua ordem de grandeza.
Como n ao podemos ordenar as observac oes de uma vari avel quali-
tativa nominal n ao podemos calcular a mediana da variavel Sexo. A
mediana da vari avel Perl do Investidor e a observac ao moderado por
aceitarmos, em sequencia, a ordem natural dos pers como conservador,
moderado e arrojado. Nesta ordenacao temos os primeiros 40% das ob-
serva coes como conservadoras e as seguintes 37, 5% observacoes como
moderadas e, portanto, uma observac ao moderada ocupa a posi cao
central da serie de observac oes.
As 40 observac oes da vari avel Idade sao listadas como:
x
1
= 31; x
2
= 23; x
3
= 29; x
4
= 31; .....; x
39
= 37; x
40
= 31.
Para calcularmos a mediana devemos ordenar as observac oes que, or-
denadas, sao denotadas por:
x
(1)
x
(2)
x
(3)
.... x
(39)
x
(40)
,
12
que em nosso exemplo corresponde a
23 23 23 25 25 .... 43 43 44.
Neste caso, em que temos um n umero par de observac oes temos duas
posic oes centrais, x
(20)
= 31 e x
(21)
= 31 e a mediana, md, e a media
destas observac oes, md =
31+31
2
.
Da mesma maneira, se ordenarmos a vari avel Investimento observa-
mos que as duas posic oes centrais s ao y
(20)
= 109, 74 e y
(21)
= 110, 4 e
a mediana e md =
109,74+110,4
2
= 110, 07. Se o n umero de observac oes
e impar, a mediana e o valor que ocupa a posicao central da serie
ordenada.
Se os dados encontram-se resumidos, como na Figura 1.6, podemos
utilizar o histograma e uma relac ao entre areas de ret angulos de mesma
altura para encontrar a mediana aproximada. No exemplo notamos
que a frequencia acumulada ate 110 e 50% e concluimos que o valor
aproximado para a mediana md = 110, e quase igual ao verdadeiro
valor, md = 110, 07.
De maneira semelhante ao c alculo da mediana podemos considerar
os calculos do p-th percentil, 0 < p < 1, valor que deixa ` a sua esquerda
100.p% das observacoes quando estao ordenadas segundo a ordem de
suas grandezas. Exemplos de percentis sao:
O decil, que deixa `a sua esquerda 10% das observacoes;
O primeiro quartil (Q
1
), que deixa ` a sua esquerda 25% das ob-
serva coes;
O segundo quartil (Q
2
= md), que deixa ` a sua esquerda 50% das
observa coes;
O terceiro quartil (Q
3
), que deixa `a sua esquerda 75% das observac oes.
Como para o c alculo da mediana, no c alculo dos percentis considera-
se os dados ordenados segundo suas grandezas. Se n e o n umero de
observa coes, o p-th percentil e o valor de ordem p.(n+1), se este for um
n umero inteiro. Caso contr ario ser a a media entre os valores antecessor
e o sucessor deste valor, p.(n + 1).
Assim, para calcular o primeiro quartil da vari avel Perl do Investi-
dor consideramos o valor de ordem 0.25.41 = 10, 25. Como tal valor
n ao e inteiro consideramos a decima e decima primeira posic oes e Q
1
e o valor conservador. Os valores de ordens antecessor e sucessor de
0, 5.41 = 20, 5 mostra que Q
2
e o valor moderado, assim como Q
3
.
Os quantis da vari avel Idade, Q
1
, Q
2
e Q
3
, s ao, respectivamente, as
medias dos valores das posicoes dos inteiros, antecessores e sucessores
dos n umeros 10, 25, 20, 5 e 30, 75 os quais s ao 28, 31 e 38. Com o mesmo
procedimento, ordenamos os valores da vari avel Y = Investimento e
13
obtemos Q
1
=
88,11+93,08
2
= 90, 6, Q
2
=
109,74+110,4
2
= 110, 07 e Q
3
=
119,89+120,58
2
= 120, 2.
Observacao 2.1. Quando a vari avel contnua apresenta-se resumida,
como na Figura 1.6 podemos utilizar o histograma e uma rela cao entre
ret angulos para o c alculo aproximado dos percentis. Consideremos o
histograma da variavel Y = investimento e calculemos, para exempli-
car, o primeiro quartil aproximado.
Figura 2.1 - Histograma da vari avel Investimento
Comecamos por contar a frequencia acumulada da esquerda para a
direita ate perfazer 25% das observac oes. Temos 8% das observac oes
` a esquerda do valor 80. Quando do valor 90 acumulamos 24% das
observa coes ` a sua esquerda que nao perfazem os 25% necess arios para
denir Q
1
. Observamos que a frequencia acumulada ate o valor 100
e 37% e concluimos que o valor Q
1
esta na classe de investimentos
[90, 100). Nessa classe, que dene um ret angulo de area 0, 13 e base
igual a 10, construimos, do lado esquerdo, um ret angulo de mesma
altura e area igual a 0, 01, que somada com as areas dos ret angulos
anteriores completam os 25% utilizados para denir Q
1
. A base desse
ret angulo, [90, Q
1
), tem comprimento Q
1
90. A esses dois ret angulos
chamaremos ret angulo maior, com area A, base B e altura H e ret angulo
menor com area a, base b e altura h. Os ret angulos tem mesma altura
e concluimos que:
A
B
=
a
b
14
Par calcular, aproximadamente, Q
1
procedemos
0, 13
10
=
0, 01
Q
1
90
Q
1
90 = 0, 77 Q
1
= 90, 77.
Observe que este e um valor aproximado e que o verdadeiro valor de
Q
1
e 90, 6.
Tal procedimento pode ser realizado para o calculo aproximado de
qualquer percentil.
A medida de tendencia central mais utilizada e a media amostral,
denida pela media aritmetica das observac oes (amostra). Sua inter-
pretac ao e o da media aritmetica: da frase a media da classe na prova
de Estatstica foi 7, entendemos que as notas dos alunos est ao em torno
de sete, ` as vezes mais que 7, ` as vezes menos. Apesar de muito utilizada
a media amostral n ao pode ser empregada quando trabalhamos com
variaveis qualitativas. Se observamos os valores x
i
, 1 i n de uma
variavel quantitativa X, a media amostral destes valores, denotada por
x e denida por
x =
x
1
+... +x
n
n
=

n
i=1
x
i
n
=
k

j=1
n
j
.x
j
=
n
1
.x
1
+n
2
.x
2
+... +n
k
.x
k
n
=
k

j=1
f
j
.x
j
,
onde k e o n umero de classes, os n
j
s ao as frequencias absolutas das
observacoes e os f
j
as frequencias relativas.
A media amostral da variavel X = Idade e igual a
x =
3.23 + 2.25 +... + 1.44
40
= 33.
A media amostral da variavel Y = Investimento e igual a
y =
101, 33 + 82, 47 +.... + 93, 73
40
= 106, 4.
Quando utilizamos o resumo da Tabela 1.7 , a media amostral aprox-
imada e
y =
3.75 + 6.85 + 5.95 + 5.105 +... + 4.135
38
= 106, 58
onde consideramos que o valor observado em determinado intervalo e
seu ponto medio.
15
Observacao 2.2. Dizemos que uma medida de localiza cao (dispers ao)
e resistente quando for pouco afetada por mudancas de uma pequena
porc ao das observa coes. A media n ao e uma medida resistente pois
e afetada por valores extremos. A mediana e resistente. Como um
exemplo considere a vari avel Y = Investimento que tem mediana
md = 110, 07. A observac ao 170, 1 e um valor extremo e se a retiramos
do conjunto das observacoes, obtemos uma mediana de md = 109, 74.
A diferenca entre essas duas quantidades e 0, 33 que representa uma
reduc ao na mediana de R$330, 00. A media de Y e y = 106, 4. Se ex-
cluirmos a observac ao 170, 1, passa a ser y = 104, 7, reduzindo a media
de 1, 7 representando a quantia R$1.700, 00.
Concluimos que se a distribuicao dos dados for aproximadamente
simetrica preferimos a media `a mediana pois, alem de representativa
a media admite o uso de tecnicas estatsticas mais avancadas. Se a
distribuic ao dos dados e assimetrica adotamos a mediana como me-
dida centralizadora. Quando tal assimetria e devido a valore extremos
podemos utilizar o conceito de media aparada e utiliza-la em nosso
estudo.
Denicao 2.3. Seja 0 n umero , 0 < < 1. A media aparada a
100% e obtida eliminando 100% das menores observac oes e 100%
das maiores e calculando-se a media aritmetica das observac oes restantes.
A media aparada a = 0, 03 de Y e y = 105, 8
2.2. Medidas de Dispersao. Para facilitar o entendimento de uma
medida de dispers ao, consideramos tres conjuntos, A, B e C, cada um
com 5 observac oes da vari avel Idade, denotadas por X, Y e Z, respec-
tivamente, que resultaram:
x
1
= 21; x
2
= 23; x
3
= 25; x
4
= 27; x
5
= 29;
y
1
= 23; y
2
= 24; y
3
= 25; y
4
= 26; y
5
= 27;
z
1
= 25; z
2
= 25; z
3
= 25; z
4
= 25; z
5
= 25.
Note que as medias amostrais nos conjuntos A, B e C s ao iguais
x = y = z = 25, e nos perguntamos: Em qual dos conjuntos a media
amostral e mais representativa?
Claramente a media e mais representativa no conjunto em que os
valores observados est ao mais proximos da media. Tal proximidade
e medida em termos de uma dist ancia em relac ao `a media. Como
existem um grande n umero de tais distancias, adotamos a sua media
como medida de dispers ao. Dentre as medidas de dispers ao usuais
destacamos o desvio medio absoluto e a variancia.
16
O desvio medio absoluto da variavel X, que assume valores x
1
, ..., x
n
,
e denido por
dm(X) =

n
i=1
[x
i
x[
n
=

k
j=1
n
j
.[x
j
x[
n
=
k

j=1
f
j
.[x
j
x[.
A variancia da vari avel X, que assume valores x
1
, ..., x
n
, e denida
por
V ar(X) =

n
i=1
(x
i
x)
2
n
=

k
j=1
n
j
.(x
j
x)
2
n
=
k

j=1
f
j
.(x
j
x)
2
.
Com os dados acima temos:
dm(X) =
1
5
[2125[+[2325[+[2525[+[2725[+[2925[ = 2, 4;
dm(Y ) =
1
5
[2325[ +[2425[ +[2525[ +[2625[ +[2725[ = 1, 2;
dm(Z) =
1
5
[2525[ +[2525[ +[2525[ +[2525[ +[2525[ = 0;
V ar(X) =
1
5
(2125)
2
+(2325)
2
+(2525)
2
+(2725)
2
+(2925)
2
= 8;
V ar(Y ) =
1
5
(2325)
2
+(2425)
2
+(2525)
2
+(2625)
2
+(2725)
2
= 2;
Assim, para as medidas apresentadas, o conjunto A apresenta maior
dispersao em torno da media, seguido pelo conjunto B. Claramente, o
conjunto C e o menos disperso.
As interpretacoes das medidas sao as mesmas: a media das dispers oes
das observa coes em relacao ` a media amostral. A vari ancia e a medida
mais usada pois analtica e estatisticamente e mais tratavel. Apesar
disso apresenta diculdade na comparac ao com as observac oes pois
tem a unidade de medida elevada ao quadrado. Para contornar tal
diculdade utilizamos o desvio padr ao
O desvio padr ao da varavel X e denido por
Dp(X) =
_
V ar(X).
O desvio padr ao tem a mesma interpretac ao da variancia.
17
Observacao 2.4. Observemos que os c alculos da vari ancia pode ser sim-
plicado:
var(X) =

n
i=1
(x
i
x)
2
n
=

n
i=1
(x
2
i
2.x
i
.x +x
2
)
n
=

n
i=1
x
2
i
2.x.

n
i=1
x
i
+

n
i=1
x
n
=

n
i=1
x
2
i
n.x
2
n
=

k
j=1
n
j
.x
2
j
n.x
2
n
.
Assim, no exemplo acima, V ar(X) =
(21
2
+23
2
+25
2
+27
2
+29
2
)5.25
2
5
= 8
e dp(X) =

8.
Quando adotamos a mediana (md), como medida de localizac ao para
uma variavel quantitativa, uma medida de dispers ao natural e o inter-
valo interquartil denido pela diferen ca entre o terceiro e o primeiro
quartis, dQ = Q
3
Q
1
. Observe que em uma distribui cao perfeita-
mente simetrica a mediana coincide com a media.
O intervalo interquartil e o comprimento do intervalo central, em
torno da mediana, que contem 50% das observa coes. O intervalo in-
terquartil da variavel Idade e d
Q
= Q
3
Q
1
= 38 28 = 10 e o da
vari avel Investimento d
Q
= 120, 2 90, 66 = 29, 54.
No contexto da Inferencia Estatstica a curva de Gauss, desenvolvida
por Carl Friedrich Gauss, tambem denominada de curva Normal, tem
papel preponderante dentre as func oes de distribuic oes contnuas. Aplica-
se na modelagem de somas innitesimais de erros aleatorios. Fen omenos
aleat orios como altura, peso, pressao sangunea, etc, seguem o modelo
normal. Tambem e utilizada para o c alculo aproximado de probabili-
dades envolvendo distribuic oes discretas, como a distribuic ao binomial
e de Poisson. Varios metodos da Inferencia Estatstica se desenvolvem
baseados na distribui cao normal.
Figura 2.2 -Curva de Gauss
18
A curva normal tem a forma camp anular, tem dois par ametros, sua
media e seu desvio padrao , e simetrica em relac ao `a media e a
maioria de seus valores (99, 3%), estao a 2, 7 desvio padr ao da media.
Devido a tal import ancia ao analisar um conjunto de dados cabe-
nos vericar se esse sao provenientes de uma populac ao normal e para
tanto, em uma primeira abordagem, devemos analisa-lo quanto ` a sua
simetria e dispers ao em torno da mediana.
Na distribuic ao normal temos:
Q
2
x
(1)
= x
(n)
Q
3
;
Q
2
Q
1
= Q
3
Q
2
;
Q
1
x
(1)
= x
(n)
Q
3
;
Q
2
Q
1
Q
1
x
(1)
;
Q
3
Q
2
x
(n)
Q
3
.
Para vericar a simetria de um conjunto de dados tais relac oes de-
vem , aproximadamente, serem satisfeitas. Usualmente realizamos um
procedimento gr aco denominado Box Plot. Para construir o Box Plot
consideramos um retagulo onde estao representados os quartis e a me-
diana. A partir do ret angulo, para cima, segue uma linha ate o valor
LS = Q
3
+ 1, 5.d
Q
, denominado limite superior. De modo similar, da
parte inferior do ret angulo, para baixo, segue uma linha ate o ponto
LI = Q
1
1, 5.d
Q
, denominado limite inferior. Os valores entre esses
dois limites sao chamados valores adjacentes e a razao para denir tais
quantidades e que uma distribuicao normal tem 99, 3% de seus valores
entre esses dois n umeros. As observac oes que estiverem acima do limite
superior ou abaixo do limite inferior ser ao chamadas pontos exteriores.
O Box Plot nos da uma ideia da posi cao, dispers ao, assimetria, cau-
das e dados discrepantes. A posic ao central e dada pela mediana e a
dispersao por d
Q
. As posi coes relativas de Q
1
, Q
2
e Q
3
d ao uma noc ao
de simetria da distribuic ao.
Figura 2.3 - Box Plot
19
Exemplo 2.5. Considerando a variavel Y = Investimento temos que
Q
1
= 90, 6, Q
2
= 110, 07 e Q
3
= 120, 2 de forma que d
Q
= 29, 54.
Portanto LS = 120, 2 + 1, 5.29, 54 = 164, 51 e LI = 90, 6 1, 5.29, 4 =
46, 29. O box plot de Y e
Figura 2.4 - Box Plot da variavel Investimento
indicando uma distribuicao assimetrica `a esquerda.
Um outro procedimento para vericar a simetria da distribui cao dos
dados e o graco de simetria que, em um plano cartesiano, associa os
valores u
i
= Q
2
x
(i)
, nos eixos da abscissas, com os valores v
i
=
x
(n+1i)
Q
2
no eixo das ordenadas, para i = 1, 2, ...,
n
2
, se n for par e
i = 1, 2, ...,
(n+1)
2
, se n

for impar. Se tal associac ao se aproxima da reta


v = u, podemos considerar as aproxima coes Q
2
x
(i)
x
(n+1i)
Q
2
verdadeiras e que os percentis da direita s ao igualmente afastados da
mediana do que os percentis da esquerda, isto e a distribui cao dos dados
e aproximadamente simetrica.
Exemplo 2.6. Considerando a vari avel Y = investimento temos que
20
i u
i
= Q
2
x
(i)
v
i
= x
(ni+1)
Q
2
1 110,07- 65,48= 44,59 170,1-110,07=60,03
2 110,07- 70,46=39,61 132,46-110,07=22,39
3 110,07-73,96=36,11 132,45-110,07=22,38
4 110,07- 76,38=33,69 131,38-110,07=21,31
5 110,07- 80,59=29,48 130,71-110,07=20,64
6 110,07-82,47=27,6 128,78-110,07=18,71
7 110,07-86,42=23,65 124,17-110,07=14,1
8 110,07- 86,68=23,39 123,19-110,07=13,12
9 110,07-87,21=22,86 121,19-110,07=11,12
10 110,07- 88,11=21.96 120,58-110,07= 10,51
11 110,07- 91,33=18,74 119,89-110,07=9,82
12 110,07- 93,08=16,99 119,09-110,07=9,02
13 110,07- 93,73=16,34 116,5-110,07=6,43
14 110,07-95,66=14,41 116,31-110,07= 6,24
15 110,07- 97,75=12,32 114,61-110,07= 4,54
16 110,07-101,33=8,74 112,82-110,07=2,75
17 110,07-101,73=8,34 112,59-110,07=2,52
18 110,07- 102,43=7,64 112,13-110,07=2,06
19 110,07- 104,88=5,19 110,51-110,07=0,44
20 110,07-109,77=0,33 110,4-110,07=0,33
Figura 2.5 - Gr aco de simetria da vari avel Investimento
e concluimos que a distribuic ao da vari avel Y e assimetrica `a es-
querda.
21
3. CAP

ITULO 3
Analise bidimensional
Nas secoes anteriores aprendemos como resumir dados provenientes
de uma vari avel, isto e, uma caracterstica do elemento amostrado. Em
geral, estamos interessados em analisar o relacionamento entre diver-
sas caractersticas da unidade amostral e se uma delas pode, de certa
maneira, explicar o comportamento das outras. Iniciamos estudando
o comportamento conjunto de duas vari aveis. As vari aveis podem ser
ambas qualitativas, quantitativas ou uma qualitativa outra quantita-
tiva e, em cada caso, temos tecnicas adequada para a an alise.
3.1. Medidas de associacao para variaveis qualitativas. Os da-
dos conjuntos de duas vari aveis qualitativas, V
1
e V
2
, aparecem em uma
tabela de dupla entrada. Se V
1
assume valores nas categorias A
1
, ..., A
n
e V
2
tem valores nas categorias B
1
, ..., B
m
a tabela e escrita como
Tabela 3.1- Tabela das frequencias absolutas
V
1
,V
2
B
1
B
2
... B
m
total
A
1
n
11
n
12
... n
1m
n
1.
A
2
n
21
n
22
... n
2m
n
2.
... ... ... ... ... ...
A
n
n
n1
n
n2
... n
nm
n
n.
total n.1 n
.2
... n
.m
n
onde n
ij
, encontrado no corpo da tabela, e a frequencia absoluta das
observa coes que pertencem ` as categorias A
i
e B
j
simultaneamente. Na
coluna marginal da tabela temos os totais das linhas que denotamos
por n
i.
=

m
j=1
n
ij
, 1 i n e na linha marginal da tabela temos os
totais das colunas denotados n
.j
=

n
i=1
n
ij
, 1 j m. n e o total
geral, isto e, o tamanho da amostra.
Exemplo 3.1. Consideremos que desejamos analisar a tabela da dis-
tribuic ao de frequencias relativas conjunta das vari aveis Sexo e Perl do
Investidor. Conforme a tabela acima temos que a distribuic ao conjunta
dos valores observados e:
22
Tabela 3.2- Tabela das frequencias absolutas
das vari aveis Sexo e Perl do Investidor
Sexo Perfil CO MO AR total
H 9 12 9 30
M 7 3 0 10
total 16 15 9 40
A tabela da distribuicao de frequencia relativa conjunta e obtida
dividindo a frequencia absoluta n
ij
, da classe ij pelo total geral, n, que
representa o n umero de observac oes. Portanto
Tabela 3.3- Tabela das frequencias relativas
das vari aveis Sexo e Perl do Investidor
Sexo, Perfil CO MO AR total
H 0, 225 0, 3 0, 225 0,75
M 0, 175 0, 075 0 0,25
total 0, 4 0, 375 0, 225 1
Podemos dizer que 30% dos indivduos obsevados sao homens e tem
perl de investimento moderado e que nenhuma mulher tem perl de
investimento arrojado.
Note que alem da distribuic ao de frequencia relativa conjunta encon-
trada no corpo da tabela, construimos as distribuicoes de frequencias
marginais das variaveis Sexo, dada na ultima coluna, e Perl do In-
vestidor, na ultima linha.
Um outro conjunto de distribuicoes de frequencias usadas na an alise
de dependencia entre as vari aveis s ao as distribuic oes de frequencias
condicionais. A distribuic ao de frequencia condicional e obtida quando
xamos a categoria de uma variavel e construimos a distribuic ao de
frequencias da outra variavel em rela cao ao total da categoria xada.
Se xamos a categoria A
i
da vari avel V
1
, a frequencia condicional da
categoria B
j
, da variavel V
2
e
n
ij
n
i.
.
Exemplo 3.2. A distribui cao de frequencia condicional da vari avel
Perl do Investidor condicionada a Sexo e:
Tabela 3.4- Tabela das frequencias condicional
da vari avel Perl do Investidor condicionada a Sexo
Sexo, Perfil CO MO AR total
H 0, 3 0, 4 0, 3 1
M 0, 7 0, 3 0 1
total 0, 4 0, 375 0, 225 1
23
Interpretamos que dentre as mulheres observadas, 30% tem perl de
investimento moderado e no universo dos homens, 30% sao investidores
arrojados.
Observe que na tabela acima temos tres distribuic oes de frequencias:
a distribuic ao da vari avel Perl do Investidor, a distribuic ao condicional
da variavel Perl do Investidor dado que o indivduo e homem e a
distribuic ao condicional da vari avel Perl do Investidor dado que o
indivduo e mulher.
Claramente se as variaveis s ao independentes, o fato do indivduo
ser, ou n ao ser, homem n ao deve inuenciar no seu perl como investi-
dor, em outros termos, a distribui cao de frequencia condicional deve
ser muito proxima da distribuic ao de frequencia marginal do Perl do
Investidor.
No exemplo acima isto n ao ocorre, a frequencia de ter um indivduo
com perl arrojado e 22, 5% que passa a ser 0% no universo das mul-
heres, que indica uma associacao entre as vari aveis.
Se temos uma noc ao de que as vari aveis s ao associadas resta-nos
procurar uma medida que quantique tal dependencia. Usaremos o co-
eciente de contingencia de Pearson obtido pelo seguinte procedimento:
Na hip otese de independencia entre as variaveis a distribui cao de
frequencia condicional e muito pr oxima da distribuic ao de frequencia
marginal. A frequencia do atributo B
j
, da vari avel V
2
e
n
.j
n
. Como o
total de observa coes da categoria A
i
, da vari avel V
1
, e n
i.
, na hipotese de
independencia, o valor esperado da frequencia conjunta das categorias
A
i
e B
j
e e
ij
=
n
i.
.n
.j
n
.
Se a hipotese de independencia for verdadeira os valores e
ij
s ao muito
pr oximos dos valores n
ij
e a quantidade

2
o
=
n
i=1

m
j=1
(n
ij
e
ij
)
2
e
ij
e pr oxima de zero.
Observe que os valores esperados e
ij
s ao quantidades positivas e
2
o
e uma soma de parcelas positivas. Se
2
o
esta proximo de zero, assim
estar ao todas as parcelas implicando que os e
ij
s ao pr oximos dos n
ij
.
Portanto baseamos nossa decis ao na quantidade
2
o
. Se
2
o
estiver
pr oxima de zero decidimos que as variaveis s ao independentes. Decidi-
mos que sao dependentes se
2
o
se afasta de zero. E surge a quest ao:
Qu ao grande deve ser
2
o
para que decidamos pela dependencia?
Esta quest ao permanecera em aberto ate a segunda parte do livro.
Por agora observe que, para complicar,
2
o
n ao tem um limite superior.
Pearson adotou o que chamamos de coeciente de contingencia dado
24
por
C =


2
o

2
o
+n
.
C e um n umero entre 0 e 1 e se proximo de zero decidimos pela
independencia das vari aveis.
Exemplo 3.3. Considerando o exemplo anterior, a tabela dos valores
esperados sob a condic ao de independencia das variaveis Sexo e Perl
do Investidor e
Tabela 3.5- Tabela dos valores esperados das
vari aveis Sexo Perl do investidor
Sexo, Perfil CO MO AR total
H 12 11, 25 6, 75 30
M 4 3, 75 2, 25 10
total 16 15 9 40
de maneira que

2
o
=
(9 12)
2
12
+
(12 11, 25)
2
11, 25
+
(9 6, 75)
2
6, 75
+
(7 4)
2
4
+
(3 3, 75)
2
3, 75
+
(0 2, 25)
2
2, 25
= 6, 2.
Portanto C =
_
6,2
6,2+40
= 0, 37, um n umero sucientemente grande
para decidirmos pela dependencia. Concluimos que o perl do investi-
dor depende do sexo e observando a tabela, os homens sao mais arro-
jados.
3.2. Medidas de associacao para variaveis quantitativas. As
vari aveis quantitativas podem ser resumidas em classes de intervalos o
que possibilita o c alculo do coeciente de contingencia, como na sec ao
anterior. Contudo s ao passveis de procedimentos mais renados. Um
procedimento gr aco seria a construcao do diagrama de dispersao em
que colocamos em um eixo cartesiano os pares observados nos elemen-
tos amostrais, como nos exemplos:
Exemplo 3.4. Durante o perodo de 6 meses, X, a taxa de nancia-
mento anual, Y , de um banco foram registradas:
X : 1 2 3 4 5 6
Y : 9 7 7 6 6 5
O diagrama de dispers ao e:
25
Figura 3.1 - Diagram de dispers ao
indicando uma relac ao linear negativa entre as variaveis, isto e, as
taxas diminuem no decorrer do tempo.
Exemplo 3.5. O preco de um produto, Y , e registrado no incio de
cada mes. Desejamos predizer o pre co do produto em funcao do tempo,
X.
X : 1 2 3 4 5 6 7 8 9 10 11 12
Y : 7 6 7 8 10 9 12 13 13 14 15 15.
O diagrama de dispers ao e
Figura 3.2 - Diagram de dispers ao
26
indicando a existencia de uma relac ao linear positiva entre as vari aveis.
Em geral o diagrama de dispers ao das variaveis X e Y indica o tipo
de associa cao existente entre elas, por exemplo
Figura 3.3a - Diagram de dispers ao
Figura 3.3b - Diagram de dispers ao
A gura 3.3a representa uma relac ao quadr atica e na gura 3.3b
percebemos que n ao existe uma associacao entre X e Y . As repre-
sentac oes nas guras 3.3c e 3.3d identicam um relacionamento linear.
27
Uma medida da rela cao linear e o coeciente de correla cao linear
denido por
Denicao 3.6. Se (X, Y ) e uma variavel bidimensional assumindo os
valores (x
1
, y
1
), ..., (x
n
, y
n
), o coeciente de correlac ao linear entre X e
Y e
corr(X, Y ) = r(X, Y ) =
1
n

i=1
(x
i
x)
DP(X)
(y
i
y)
DP(Y )
.
Para interpretarmos tal quantidade consideramos uma translac ao do
plano cartesiano (x, y) com origem (0, 0) para o plano cartesiano (x
x, y y) com origem (x, y), produzindo:
Figura 3.4a - Diagram de dispers ao
Figura 3.4b - Diagram de dispers ao
28
Na gura 3.4a, na maioria das vezes, as quantidades (x
i
x) e (y
i

y) s ao ambas positivas ou negativas, produzindo um produto positivo


indicando uma rela cao linear direta. Na gura 3.4b, em geral, se (x
i
x)
e positivo, o seu par (y
i
y) e negativo e por outro lado, quando
(x
i
x) e negativo o seu par (y
i
y) e positivo. Em ambas as situa coes
o produto e negativo indicando um relacionamento linear inverso. A
soma dos produtos poderia crescer indenidamente com o tamanho da
amostra, n, e consideramos a sua media, dividindo por n. Segue uma
padronizac ao das variaveis, dividindo pelos respectivos desvios padr oes,
impedindo que a soma seja grande devido a dispers ao das vari aveis.
Observe, ent ao, que a express ao que determina o relacionamento linear
entre as vari aveis e a da covariancia amostral denida por
COV (X, Y ) =
1
n
n

i=1
(x
i
x)(y
i
y) =
1
n
n

i=1
x
i
.y
i
nx.y
produzindo
corr(X, Y ) =
cov(X, Y )
dp(X).dp(Y )
=

n
i=1
x
i
.y
i
nx.y
_
(

n
i=1
x
2
i
n.x
2
).(

n
i=1
y
2
i
n.y
2
)
.
Observacao 3.7. Considerando a equacao quadr atica, em t, temos
[(x
i
x) +t(y
i
y)]
2
= (x
i
x)
2
+2.t.(x
i
x).(y
i
y) +t
2
.(y
i
y)
2
0,
Que somando em i, 1 i n resulta em
var(X) + 2.t.cov(X, Y ) +t
2
.var(Y ) 0
que tem solu cao se, e somente se, o discriminante e 0, isto e
4.cov(X, Y )
2
4.var(X).var(Y ) 0 [
cov(X, Y )
dp(X).dp(Y )
[ 1.
Portanto 1 r(X, Y ) 1 e concluimos que a correlac ao linear e
um n umero entre 1 e 1. Se r for proximo de 0 n ao existe uma rela cao
linear e quanto mais se afastar de 0 a relac ao de dependencia linear
e mais forte, sendo uma relac ao linear exata se [r[ = 1. Se r < 0 a
relac ao e negativa, isto e, se uma vari avel cresce a outra decresce e o
contr ario. Se r > 0 a relac ao linear e positiva, ou seja, as duas vari aveis
crescem conjuntamente.
29
Exemplo 3.8. Durante o perodo de 6 meses, X, a taxa de nancia-
mento anual, Y , de um banco foram registradas:
X : 1 2 3 4 5 6
Y : 9 7 6 6 5.
Segue que
Tabela 3.6- C alculos auxiliares
i x
i
y
i
x
i
x y
i
y
x
i
x
dp(X)
y
i
y
dp(Y )
x
i
x
dp(X)
.
y
i
y
dp(Y )
1 1 9 2, 5 2, 33 1, 46 1, 89 -2,76
2 2 7 1, 5 0, 33 0, 88 0, 268 0,236
3 3 7 0, 5 0, 33 0, 29 0, 268 -0,078
4 4 6 0, 5 0, 67 0, 29 0, 55 -0,16
5 5 6 1, 5 0, 67 0, 88 0, 55 -0,484
6 6 5 2, 5 1, 67 1, 46 1, 19 -1,74
total 21 40 0 0 0 0 -5,46
Observe que os c alculos realizados utilizaram x = 3, 5, y = 6, 67,
dp(X) = 171 e dp(Y ) = 1, 23. Portanto o coeciente de correlac ao e
igual a corr(X, Y ) =
5,46
6
= 0, 91 indicando uma forte rela cao linear
negativa e deduzimos que a taxa de nanciamento decresce no decorrer
dos meses.
Exemplo 3.9. O preco de um produto, Y registrado no incio de cada
mes. Desejamos predizer o preco do produto em funcao do tempo,X.
X : 1 2 3 4 5 6 7 8 9 10 11 12
Y : 7 6 7 8 10 9 12 13 13 14 15 15.
Temos

12
i=1
x
i
= 78,

12
i=1
y
i
= 129,

12
i=1
x
i
.y
i
= 966 ,

12
i=1
x
2
i
=
660,

12
i=1
y
2
i
= 1507 e portanto
corr(X, Y ) =

n
i=1
x
i
.y
i
nx.y
_
(

n
i=1
x
2
i
n.x
2
).(

n
i=1
y
2
i
n.y
2
)
=
966 12.6, 5.10, 75

153.120, 5
= 0, 94,
indicando que a rela cao linear e acentuada e que os pre cos crescem no
decorrer do tempo,
Aceitando que existe uma relac ao linear entre X e Y perguntamos
naturalmente: Como estimar tal rela cao?
Procuramos a reta que melhor se ad apte ao nosso conjunto de ob-
serva coes no intuito de ter alguma explicac ao da variavel Y dado que
30
observamos x. Como no plano cartesiano dois pontos determinam uma
unica reta est a claro que, em sua maioria, os pontos observados n ao es-
tar ao sobre a reta. Esperamos que estejam sobre a reta mas estamos
sujeitos ao erro na relac ao
Y = +.x +.
Se desejamos estimar um valor aleatorio Y baseado em um valor
observado x, e claro que o erro e aleatorio que assumimos de valor
esperado 0.
Um metodo adequado para procedemos com a estimac ao dos parametros
e e o metodo dos mnimos quadrados que minimiza a soma dos
quadrados dos erros. Se observamos y
i
= + .x
i
+ e
i
, 1 i n, a
soma dos quadrados dos erros como func ao de e e
f(, ) =
n
i=1
(y
i
.x
i
)
2
.
Se derivarmos f(, ) em e e igualarmos a zero teremos duas
equac oes com duas inc ognitas cujas soluc oes s ao as estimativas e

de e , respectivamente. Tais estimativas sao

n
i=1
x
i
.y
i
nx.y

n
i=1
x
2
i
n.x
e
= y

.x.
Exemplo 3.10. Durante o perodo de 6 meses, X, a taxa de nancia-
mento anual, Y , de um banco foram registradas:
X : 1 2 3 4 5 6
Y : 9 7 6 6 5.
Calculamos anteriormente o coeciente de correla cao linear, corr(X, Y ) =
0, 91 indicando uma relac ao linear negativa.
Qual a estimativa da taxa de nanciamento no terceiro mes? e aos
5, 5 mes?
Os coeceintes angular e linear da reta estimada sao:

n
i=1
x
i
.y
i
nx.y

n
i=1
x
2
i
n.x
=
128 6.3, 5.6, 67
17, 5
= 0, 69
e
= y

.x = 6, 67 + 0, 69.3, 5 = 9, 1.
Portanto a reta estimada e
y = 9, 1 0, 69.x
e as estimativas de x = 3 e x = 5, 5 so y = 9, 1 0, 69.3 = 7, 03, um
pouco diferente do valor 7 observado na amostra, e y = 9, 10, 69.5, 5 =
5, 31.
31
4. CAP

ITULO 4
Probabilidades
4.1. Introducao `as Probabilidades. Um experimento aleat orio como
delineado nos Captulos anteriores dene um Espa co Amostral que
e o conjunto de todos os resultados possveis de tal fenomeno.
Um espaco amostral e discreto quando e um conjunto enumer avel
de elementos. Quando n ao e enumeravel, no nosso contexto, e um
subconjunto da reta real, ', denominado espa co amostral contnuo.
Se observamos tres lancamentos consecutivos de uma moeda e obser-
vamos a sequencia de caras (c) e coroas (r) obtemos o espaco amostral
discreto
= (c, c, c), (c, c, r), (c, r, c), (r, c, c), (c, r, r), (r, c, r), (r, r, c), (r, r, r).
Ao lancarmos uma dado observamos a face voltada para cima temos
= 1, 2, 3, 4, 5, 6,
que e discreto
Podemos contar o n umero de pe cas defeituosas que saem de uma
linha de produc ao e o espaco amostral discreto e
= n : n N,
onde N representa o conjunto dos n umeros naturais.
Se monitoramos continuamente a durac ao de uma lampada, desde o
inicio de sua utilizac ao, temos um espaco amostral contnuo
= t 0 : t '.
A escolha aleat oria de um ponto em um crculo no plano cartesiano
de raio igual a um e centro na origem produz o espaco amostral contnuo
= (x, y) :
_
x
2
+y
2
1.
Ao analisarmos os rendimentos diarios de um grupo de ac oes de
empresas de grande porte, na BOVESPA, temos
= x% : 100 x 100,
que e contnuo.
A um determinado experimento aleat orio podemos associar espa cos
amostrais diferentes. Quando lancamos uma moeda tres vezes e esta-
mos interessados no n umero de caras e n ao na sequencia de caras e
coroas temos
= 0, 1, 2, 3.
32
Uma outra denic ao essencial e a de eventos aleat orios. Um evento
aleat orio e qualquer subconjunto do espaco amostral e e denotado
por letras latinas mai usculas (A, B, C, ...).
Se lan camos uma moeda tres vezes e estamos interessado no evento
A, da ocorrencia de ao menos duas caras, temos
A = (c, c, c), (c, c, r), (c, r, c), (r, c, c),
se nosso interesse e a sequencia de caras e coroas e
A = 2, 3,
se estamos interessados no n umero de caras.
Cumpre observar que, na realizac ao de determinado experimento,
um evento ocorre se, e somente se, um de seus elementos ocorre.
Ao aplicarmos em ac oes de empresas de grande porte, na BOVESPA,
desejamos analisar a chance do evento B,
B = x% : x 3,
de que uma valorizac ao por mais de 3% ocorra com alta probabilidade.
Ao escolhermos um ponto no crculo no plano cartesiano, de raio
igual a um e centro na origem, qual a probabilidade de que esteja no
crculo de raio
1
2
e centro (
1
2
,
1
2
), isto e, qual e o valor de P(C), onde
C = (x, y) :
_
(x
1
2
)
2
+ (y
1
2
)
2

1
2
?
Por vezes estamos interessados nas ocorrencias de alguns eventos
ou nas ocorrencias simult aneas de eventos que serao traduzidas pelas
operac oes entre eles. Como, por sua vez, os eventos sao subconjuntos
do espaco amostral, estas s ao operacoes entre conjuntos que assumimos
ser familiar ao leitor.
O evento sera denominado evento certo e o evento vazio, , de
evento impossvel. Se A e B s ao dois eventos, dizemos que A esta
contido em B e escrevemos A B se todo elemento de A pertencer a B.
A diferenca entre dois eventos B e A, que denotamos BA, e denida
como o conjunto de elementos de B que nao pertencem a A, isto e,
B A = B A. Observe que a denic ao da diferenca entre eventos
n ao esta circunscrita `a relacao de contingencia. Se A e um evento, o
seu complementar, denotado por A, e o conjunto dos elemento de
que nao est ao em A, denida como a diferenca A = A.
Dado dois eventos A e B, a sua uniao AB e o conjunto de elemen-
tos de que est ao em A, ou em B. A sua intersecc ao, que denotamos
A B, e o conjunto de elementos de que estao em A e em B simul-
taneamente. Dois eventos A e B s ao disjuntos se a sua interseccao e
33
vazia, isto e A B = . Segue que A A = e que A A = , isto e,
A e A s ao disjuntos e exaustivos, isto e, sua uniao e o espaco amostral.

E conveniente relembrarmos a propriedade distributiva entre eventos


aleat orios. Se A, B e C s ao eventos aleat orios, a propriedade distribu-
tiva da intersecc ao em rela cao `a uni ao e denida por
A (B C) = (A B) (A C)
e da uni ao em rela cao `a intersec cao
A (B C) = (A B) (A C).
As Leis de Morgam sao de import aancia fundamental: Se A e B s ao
eventos temos:
(A B) = A B, (A B) = A B.
Tais leis sao v alidas para um conjunto enumer avel de eventos.
Exemplicamos tais relacoes atraves do exemplo:
Exemplo 4.1. Joga-se um dado e observa-se a face voltada para cima.
Claramente = 1, 2, 3, 4, 5, 6. Seja A o evento de que a face voltada
para cima e par, isto e A = 2, 4, 6. Assim, o complementar A =
1, 3, 5 e o evento de que a face e impar. Claramente A A = e
A A = .
Seja C o evento de que a face voltada para cima e maior do que 3
e D o o evento de que a face voltada para cima e maior ou igual a 3,
de forma que C = 4, 5, 6 e D = 3, 4, 5, 6. Temos entao que C esta
contido em D , isto e, C D. A diferenca entre D e C e
D C = D C = 3, 4, 5, 6 1, 2, 3 = 3.
A diferenca de A e C e
A C = A C = 2, 4, 6 1, 2, 3 = 2.
Nesta Sec ao, dado um experimento aleat orio e o respectivo espaco
amostral , construiremos uma medida de probabilidade sobre o con-
junto de todos os eventos atraves de suposicoes teoricas que satisfacam
certos axiomas.
Exemplo 4.2. No experimento em que um dado justo e lancado a face
voltada para cima e um elemento do espaco amostral = 1, 2, 3, 4, 5, 6.
Como o dado e equilibrado associamos, por razoes l ogicas, a cada ele-
mento de a probabilidade
1
6
. Assim
P(1) = P(2) = P(3) = P(4) = P(5) = P(6) =
1
6
.
34
A probabilidade de face par e
P(A) = P(2, 4, 6) =
1
6
+
1
6
+
1
6
=
1
2
e podemos calcular a probabilidade de qualquer evento como a soma das
probabilidades de seus elementos considerados como conjuntos unit arios.
Resumindo, a probabilidade e uma funcao de conjuntos ( face par por
exemplo) e para deni-la em um espaco amostral discreto, , consider-
amos o conjunto das partes de , , a classe de todos os subconjuntos
de . Denimos P em satisfazendo os Axiomas de Kolmogorov:
Denicao 4.3.
P : [0, 1]
A P(A)
satisfazendo
a) P() = 1
b) P(

i=1
A
i
) =

i=1
P(A
i
) quando os A
i
s ao disjuntos dois a dois,
isto e, A
i
A
j
= i ,= j.
Observacao 4.4. A soma em b) da deni cao pode ser reduzida a uma
soma nita se consideramos os eventos nao pertencentes `a soma.
Associado a um espa co amostral podemos ter diferentes medidas de
probabilidades, que dependem das suposicoes consideradas.
Exemplo 4.5. Consideramos que no lancamento de um dado a prob-
abilidade da face voltada para cima e diretamente proporcional ao
n umero da face. Assim P(Face i) = P(i) = i, > 0.
Sabemos que
P() = P(1) +P(2) +P(3) +P(4) +P(5) +P(6) =
.1 +.2 +.3 +.4 +.5 +.6 = .21 = 1.
Portanto a constante de proporcionalidade e igual a
1
21
e a proba-
bilidade de obtermos face par no lancamento deste dado e
P(A) = P(2, 4, 6) =
2
21
+
4
21
+
6
21
=
12
21
Assim, apesar de n ao intuitivo, o ultimo modelo de probabilidade e
matematicamente perfeito pois satisfaz os axiomas de Kolmogorov.
Em resumo, em um espaco amostral discreto e nito, podemos denir
uma medida de probabilidade associando a cada ponto amostral uma
probabilidade p, 0 p 1 que somem 1. Em particular, denimos
um espa co amostral discreto e nito como equiprovavel, ou uniforme,
quando a cada um de seus pontos associamos a mesma probabilidade.
35
Claramente, se a cardinalidade do espaco amostral e n, () = n, a
probabilidade associada a cada um de seus elemento e p =
1
n
.
4.2. Propriedades. Dentro do prop osito do texto e para facilitar o
aprendizado, as propriedades das medidas de probabilidades ser ao ape-
nas enunciadas e exemplicadas em um espaco amostral equiprov avel.
As demonstra coes formais podem ser encontradas em livros mais es-
peccos, contudo, observamos que tais propriedades valem no contexto
geral da teoria das probabilidades
Exemplo 4.6. Um operador da Bolsa de Valores classica seus 1000
clientes, os quais s ao conservadores ou arrojados entre os diversos se-
tores da Economia. Em um pequeno resumo obteve a seguinte tabela
onde os setores A, B, E e P s ao abrevia coes para os setores Agricula,
Banc ario, Eletr onico e Petroleo, respectivamente.
Cliente / Setor A B E P totais
Conservador 200 120 60 20 400
Arrojado 200 180 140 80 600
Totais 400 300 200 100 1000
Ao fazer uma analise probabilstica da populac ao dos clientes con-
siderou os eventos:
A: O cliente aplica no setor Agrcola;
B: O cliente aplica no setor Banc ario;
C: O cliente e consevador;
D = C: O cliente e arrojado;
E: O cliente aplica no setor Eletr onico;
F: O cliente aplica no setor Eletr onico ou no de Petr oleo;
P: O cliente aplica no setor de Petr oleo.
Em um primeiro momento o operador perguntou-se: qual a probabil-
idade de um cliente sorteado ao acaso ser conservador, obtendo como
resposta
P(C) =
400
1000
= 0, 4.
Supondo que esta escolha tenha uma restric ao: de que o cliente seja
conservador sabendo que suas aplicac oes est ao no setor de eletronicos
ou no de petr oleo a probabilidade e:
P(C[F) =
80
300
= 0, 27.
36
Note que P(F) =
300
1000
= 0, 3, P(E) =
200
1000
= 0, 2, P(P) =
100
1000
= 0, 1
e que
P(F) = P(E P) = 0, 3 = 0, 2 + 0, 1 = P(E) +P(P).
Contudo
P(C F) =
620
1000
= 0, 62 ,= 0, 4 + 0, 3 = P(C) +P(F)
e deduzimos que a probabilidade da uniao de dois eventos nem sempre
e igual `a soma de suas probabilidades. O correto seria
0, 62 = P(C F) = 0, 4 + 0, 3 0, 08 = P(C) +P(F) P(C F).
Enunciamos a
Regra I: Regra da Adicao
Para quaisquer eventos A e B, a probabilidade do evento A B e
P(A B) = P(A) +P(B) PA B).
Por outro lado, uma propriedade importante e a
Regra II: Regra do Produto
Para quaisquer eventos A e B, a probabilidade do evento A B e
P(A B) = P(A).P(B[A) = P(B).P(A[B).
Por exemplo
P(C F) =
80
1000
= 0, 08 = P(C).P(F[C) = 0, 4.0, 2.
omo consequencia, se P(A) ,= 0(P(B) ,= 0), podemos denir a prob-
abilidade condicional P(B[A)(P(A[B))como o quociente de PAB) e
P(A), (P(B)).
P(B[A) =
P(A B)
P(A)
(P(A[B) =
P(A B)
P(B)
).
Observe que
P(F[C) = 0, 2 =
0, 08
0, 4
=
P(C F)
P(C)
,= 0, 3 = P(F),
isto e, em geral a probabilidade condicional nao e igual ` a probabilidade
original (incondicional) do evento.
37
Contudo, podemos ter que
P(D[B) =
P(D B)
P(B)
=
0, 18
0, 3
= 0, 6 = P(D)
e a probabilidade condicional e igual ` a probabilidade do evento original,
e dizemos que os eventos D e B s ao independentes.
Denicao 4.7. Dois eventos A e B s ao independentes se, e somente
se P(A[B) = P(A), que e equivalente a
P(A B) = P(A).P(B).
A Regra do Produto pode ser extendida a uma sequencia nita de
eventos eventos e, se o limite existir, para uma sequencia innita. No
nosso contexto praticamos com poucos eventos:
P(A B C) = P(A).P(B[A).P(C[A B).
O conceito de independencia pode ser aplicado a uma sequencia enu-
mer avel de eventos mas com certo cuidado. A independencia entre tres
eventos, por exemplo e denida da seguinte maneira:
Denicao 4.8. Tres eventos, A, B e C s ao independentes se s ao inde-
pendentes dois a dois, isto e
P(A B) = P(A).P(B),
P(A C) = P(A).P(C),
P(B C) = P(B).P(C)
e
P(A B C) = P(A).P(B).P(C).
Podemos exemplicar que eventos dois a dois independentes nem
sempre sao independentes:
Exemplo 4.9. Considere o espaco amostral = 1, 2, 3, 4, equiprovavel,
e os eventos A = 1, 2, B = 1, 3 e C = 2, 3. Claramente, P(A) =
P(B) = P(C) =
2
4
. Temos tambem que AB = AC = BC = 1
, com P(A B) = P(A C) = P(B C) =
1
2
.
Portanto
P(A B) =
1
4
=
1
2
.
1
2
= P(A).P(B);
P(A C) =
1
4
=
1
2
.
1
2
= P(A).P(C);
P(B C) =
1
4
=
1
2
.
1
2
= P(B).P(C);
38
e os eventos s ao dois a dois independentes.
Contudo P(A B C) = P(1) =
1
4
,=
1
2
.
1
2
.
1
2
= P(A).P(B).P(C)
e concluimos que os eventos n ao s ao independentes.
Um exemplo interessante para xarmos o aprendizado de probabil-
idade condicional e de independencia e o da retirada casual de bolas
identicas de uma urna:
Exemplo 4.10. Considere uma urna contendo tres bolas pretas e cinco
bolas vermelhas. Retire, casualmente, duas bolas sem reposic ao (com
reposic ao) e obtenha os possveis resultados e as respectivas probabili-
dades.
Ao retirarmos com reposic ao teremos
Figura 4.1 -

Arvore de Eventos
P((P, P)) = P(P).P(P[P) =
3
8
.
3
8
;
P((P, V )) = P(P).P(V [P) =
3
8
.
5
8
;
P((V, P)) = P(V ).P(P[V ) =
5
8
.
3
8
;
P((V, V )) = P(V ).P(V [V ) =
5
8
.
5
8
;
Observe que a probabilidade condicional de obtermos vermelha na se-
gunda retirada, condicionada a preta na primeira retirada, P(V [P)
39
e igual a probabbilidade incondicional P(V ), isto e a segunda reti-
rada e independente da primeira pois repomos a bola retirada e re-
constituimos a urna. Note, tambem, que a retirada de uma bola de
determinada cor nao muda nas retiradas sucessivas.
Ao retirarmos sem reposic ao teremos
Figura 4.2 -

Arvore de Eventos
P((P, P)) = P(P).P(P[P) =
3
8
.
2
7
;
P((P, V )) = P(P).P(V [P) =
3
8
.
5
7
;
P((V, P)) = P(V ).P(P[V ) =
5
8
.
3
7
;
P((V, V )) = P(V ).P(V [V ) =
5
8
.
4
7
;
Quando retiramos e nao repomos a bola, a congura cao da urna
muda e a segunda retirada depende da primeira, isto e P(V )[P) ,=
P(V ). Contudo, mesmo neste caso, a retirada de uma bola de de-
terminada cor n ao muda nas retiradas sucessivas.
P(V
2
) = P(V
1
).P(V
2
[V
1
) +P(P
1
).P(V
2
[P
1
) =
5
8
.
4
7
+
3
8
.
5
7
=
5
8
= P(V
1
).
O ultimo argumento do exemplo anterior enseja o desenvolvimento
de uma regra, denominada regra da probabilidade total. Para enuncia-
la devemos denir uma partic ao do espaco amostral.
40
Denicao 4.11. Sejam um espaco amostral e A
1
, A
2
, ..., A
n
eventos
dois a dois disjuntos e exaustivos de , isto e
a) =
n
i=1
A
i
, e
b) A
i
A
j
= 1 i, j n.
Ent ao dizemos que A
1
, ..., A
n
e uma partic ao de .
Teorema 4.12. Regra da Probabilidade Total.
Sejam um espaco amostral, A
1
, ..., A
n
e uma particao de , B
um evento e P uma probabilidade em . Entao
P(B) =
n
i=1
P(A
i
).P(B[A
i
).
Prova:
Utilizando a denicao de particao, a propriedade distributiva e a
regra do produto escrevemos:
P(B) = P(B ) = P(B (
n
i=1
A
i
)) = P(
n
i=1
(B A
i
)) =

n
i=1
P(B A
i
) =
n
i=1
P(A
i
).P(B[A
i
).
Uma consequencia imediata da regra da probabilidade total e o Teo-
rema de Bayes:
Teorema 4.13. Teorema de Bayes.
Sejam um espaco amostral, A
1
, ..., A
n
e uma particao de , B
um evento e P uma probabilidade em . Entao
P(A
i
[B) =
P(B[A
i
).P(A
i
)

n
i=1
P(A
i
).P(B[A
i
)
.
Exemplo 4.14. O portifolio de uma seguradora de veculos, e formado
por ap olices para automoveis e para caminhoes na proporc ao de 70% e
30%, respectivamente. No setor de caminhoes 40% dos sinistros resul-
tam em perda total, 50% em perda parcial e 10% s ao dedutveis. No
setor de autom oveis 30% dos sinistros resultam em perda total, 60%
em perda parcial e 10% s ao dedutveis.
Se em determinado acidente houve perda parcial, qual a probabili-
dade de que o veculo acidentado foi um automovel?
Se denotamos os eventos de interesse por:
A = veculo e um automovel;
C = veculo e um caminhao;
D = a perda e dedutvel ;
P = a perda e parcial ;
T = a perda e total ,
as expressoes analticas que traduzem o enunciado do exemplo sao:
P(C) = 0, 3, P(A) = 0, 7, P(T[A) = 0, 3, P(P[A) = 0, 6, P(D[A) =
0, 1, P(T[C) = 0, 4, P(P[C) = 0, 5 e P(D[C) = 0, 1.
41
Aplicamos o teorema de Bayes:
P(A[P) =
P(A P)
P(P)
.
Pela regra do produto, o numerador e P(A P) = P(A).P(P[A) =
0, 7.0, 6 = 0, 42. Obtemos o denominador atraves da regra da probabil-
idade total
P(P) = P(A).P(P[A) +P(C).P(P[C) = 0, 7.0, 6 + 0, 3.0, 5 = 0, 57.
Assim P(A[P) = 0, 74.
4.3. Probabilidade Condicional. Suponha que lancamos um dado
equilibrado duas vezes, independente e em sequencia, observando a
face voltada para cima. Este experimento tem como espaco amostral
o conjunto
= (1, 1); (1, 2); ..., (1, 6); (2, 1); ....; (6, 1); ..., (6, 6)
com 36 elementos. Cada ponto escolhido aleatoriamente em tem
probabilidade P(w) =
1
36
. Sejam os eventos
A = A soma das faces e igual a seis
e
B = O primeiro lancamento resultou face 4.
Suponha que ap os o primeiro lan camento vericamos que o evento B
ocorreu. Se queremos calcular a probabilidade condicional da ocorrencia
do evento A, temos
P(A[B) =
P(A B)
P(B)
=
1
36
6
36
=
1
6
.
O primeiro lancamento induz um novo espaco amostral,
B
, denomi-
nado de tra co de B em :

B
= (4, 1); (4, 2); (4, 3); (4, 4); (4, 5); (4, 6).
Podemos, ent ao, considerar o conjunto das partes
B
e denir, assu-
mindo o Princpio da Preservacao das Chances Relativas, uma medida
de probabilidade P(.[B)
P([B) :
B
[0, 1]
A P(A[B)
satisfazendo a) P([B) = 1 b) P(

i=1
A
i
[B) =

i=1
P(A
i
[B) ,
quando os A
i
s ao disjuntos dois a dois, isto e A
i
A
j
= i ,= j.
42
O Princpio da Preserva cao das Chances Relativas assegura que,
dada a ocorrencia do evento B na primeira etapa, os resultados possveis
na segunda etapa, mantem as mesmas chances que tinha antes da re-
alizac ao da primeira etapa, isto e, P(A[B) = P(AB) onde '
+
.
Aceitando este princpio temos:
P(
B
[B) = P(
B
B) = P(B) = 1
e =
1
P(B)
com P(A[B) =
P(AB)
P(B)
. Em adicao
P(

n=1
A
n
[B) =
P(

n=1
A
n
B)
P(B)
=
P(

n=1
(A
n
B))
P(B)
=

n
n=1
P(A
n
B)
P(B)
=
n

n=1
P(A
n
[B)
onde (A
n
)
n1
e uma sequencia de eventos em
B
disjuntos dois a dois.
Portanto o Espaco de Probabilidade Condicional (
B
,
B
, P(.[B))
satisfaz os axiomas de Kolmogorov e esta bem denido, preservando
todas as caractersticas e propriedades de um espaco de probabilidade.
Observacao 4.17. Embora simples, um espaco amostral equiprovavel
e muito importante, mesmo porque ate este ponto, abusamos de tal
conceito para introduzir as ideias probabilsticas. Em deferencia a
tal importancia observamos que, um espaco amostral discreto, nito
e equiprovavel, = w
1
, w
2
, ..., w
n
e tal que P(w
i
) =
1
n
=
1
()
, 1
i n.
Como os eventos w
i
, w
j
, i ,= j, s ao disjuntos, a probabilidade de
um evento A de e o n umero de elementos de A, denotado por (A),
sobre o n umero de elementos de ,
P(A) = P(
w
i
A
w
i
) =
w
i
A
P(w
i
) =

w
i
A
1
()
=
(A)
()
.
Para procedermos com o calculo da cardinalidade de conjuntos de-
vemos introduzir algumas regras de contagem:
Regra I Princpio Fundamental da Contagem
Se um procedimento pode ser realizado em duas etapas, a primeira
de n maneiras e a segunda de m maneiras, ent ao podemos realizar o
procedimento de mn maneiras.
43
Exemplo 4.18. Experimentamos casual e sussecivamente 10 chaves
identicas para abrir uma porta. Somente uma chave pode abrir a porta
e o procedimento pode exigir, 1, 2, ...,9 ou 10 tentativas. Mostraremos
que todas as tentativas tem mesma probabilidade 0, 1.
Observe que, em qualquer etapa do procedimento o espaco amostral
e equiprov avel pois a escolha e casual. Denotemos por A
i
o evento de
que acertamos na i-es tentativa. A
i
e o complementar de A
i
.
Na primeira tentativa, o n umero de maneiras de escolhermos uma
chave dentre as 10, e 10. So existe uma maneira de escolhermos a
chave correta e, portanto P(A
1
) =
1
10
= 0, 1.
Na segunda tentativa, o n umero de maneiras de retirarmos duas
chaves, em duas etapas e, pelo princpio fundamental da contagem,
10.(101) e o n umero de maneiras de retirarmos duas chaves, em duas
etapas, de forma que a segunda etapa resulte na chave correta e,pelo
princpio fundamental da contagem, (10 1).1 e, portanto, P(A
2
) =
(101).1
10.(101)
= 0, 1.
Procedendo da mesma maneira, na k-es tentativa, quando o n umero
de maneiras de retirarmos k chaves, em k etapas e, pelo princpio fun-
damental da contagem 10.(101)...(10k+1) e o n umero de maneiras
de retirarmos k chaves, em k etapas, de forma que a k-es. etapa
resulte na chave correta e, pelo princpio fundamental da contagem,
(10 1)....(10 k +1).1 e, portanto. P(A
k
) =
((101).....10k+1)1
10.(101)....(10k+1)
= 0, 1.
Regra II Permutacao
O n umero de maneiras de ordenarmos n objetos e
n! = n.(n 1).(n 2)...2.1
com 0! = 1.
Regra III Combina cao de n elementos, escolhidos k a k.
O n umero de maneiras de escolhermos k objetos, em uma populacao
de n objetos de maneira que a ordem da escolha seja irrelevante e
_
n
k
_
=
n!
k!.(n k)!
Exemplicando, em uma populac ao de objetos a, b, c, d, se escol-
hemos casualmente dois objetos sem nos importarmos com a ordem
teremos
_
4
2
_
=
4!
2!.2!
=
4.3.2
2.2
= 6 congurac oes, a saber
a, b; a, c; a, d; b, c; b, d; c, d.
44
Exemplo 4.19. Em um estacionamento observamos que existem 8
carros estacionados e que as quatro vagas restantes, sem carros, s ao
consecutivas. Esta congurac ao e surpreendente?
Consideramos o espaco equiprovavel, isto e qualquer carro tem a
mesma chance de ocupar qualquer vaga e, para nossos prop ositos a
ordem em que isso ocorre e irrelevante.
O n umero de maneiras de alocarmos os 8 carros nas 12 vagas e
_
12
8
_
=
495. O n umero de alocac oes que satisfazem o evento de interesse e
9 e portanto a probabilidade de ocorrer tal evento e
9
495
= 0, 018 e
concluimos que a ocorrencia do evento e surpreendente.
Regra IV Arranjo de n elementos, escolhidos k a k.
O n umero de maneiras de escolhermos k objetos, em uma populacao
de n objetos de forma que a ordem da escolha seja relevante e
(n)
k
= n.(n 1).(n 2)..(n k + 1).
Exemplicando em uma popula cao de objetos a, b, c, d, se escol-
hemos casualmente dois objetos ordenados, teremos (4)
2
= 4.3 = 12
congurac oes, a saber
(a, b); (a, c); (a, d); (b, c); (b, d); (c, d);
(b, a); (c, a); (d, a); (c, b); (d, b); (d, c).
Exemplo 4.20. Considere um ano de 365 dias e os eventos
A = O anivers ario de 10 pessoas ocorrem em dias diferentes.
B = O anivers ario de 10 pessoas ocorrem, exatamente, em dois
meses do ano.
O leitor e convidado a explicar as soluc oes:
P(A) =
(365)
10
(365)
10
;
P(B) =
_
12
2
_
.(2
10
2)
12
10
.
45
5. CAP

ITULO 5
Variaveis Aleat orias Discretas
Os fenomenos aleat orios qualitativos sao bem analisados com os re-
cursos estudados na sec ao anterior. Os fen omenos aleat orios quanti-
tativos admitem ferramentas mais analticas que permitem um estudo
mais abrangente destes experimentos. Mesmo os experimentos quali-
tativos s ao passveis de estudos analticos com os devidos cuidados de
interpreta cao e utiliza cao dos resultados. Imagine que entrevistamos
milhares de pessoas em uma pesquisa de opiniao em que o entrevistado
responde a uma questao tipo certo x errado. Ao registrarmos a re-
sposta seria conveniente codicarmos o certo pelo n umero 1 e o errado
pelo n umero 0. Assim, se estamos interessados no n umero de certos so-
maramos as respostas. Ao interpretarmos os dados concluiramos que
a proporc ao do certo e a soma dos 1s sobre o n umero de entrevistados,
mas seria inapropriado dizer que a media da variavel sexo e masculino.
A formalizac ao de tais procedimentos analticos e atraves das vari aveis
aleat orias que podem ser discretas ou contnuas. A variavel aleat oria
e discreta se assume valores em um conjunto enumer avel, nito ou
innito, Em nosso contexto, a vari avel aleat oria e contnua quando
assume valores em um subconjunto dos n umeros reais, '.
5.1. Variaveis Aleat orias Discretas. Introduzimos este conceito atraves
de um exemplo: Lancamos, independentemente, uma moeda equili-
brada tres vezes obtendo o espaco amostral
= (c, c, c), (c, c, r), (c, r, c), (r, c, c), (c, r, r), (r, c, r), (r, r, c), (r, r, r).
Como na Denic ao 4.3 consideramos , o conjunto das partes de ,
e em denimos a medida de probabilidade que leva a cada elemento
amostral a probabilidade
1
8
. Argumentamos que a probabilidade de
cara e
1
2
, pois a moeda e equilibrada e os lancamentos s ao indepen-
dentes. Assim
P((c, c, r)) = P(ccr) = P(c).P(c).P(r) =
1
2
.
1
2
.
1
2
=
1
8
.
`
A terna (, , P) chamamos espaco de probabilidades. Nosso ob-
jetivo e denir uma funcao X do espaco amostral no conjunto dos
n umeros reais '. Na realidade construimos um outro espaco de prob-
abilidades (',
X
, P
X
), onde
X
e o conjunto das partes da imagem
da aplicacao X, X(). Para prosseguirmos denimos a imagem inversa
atraves de X de um conjunto em
X
.
46
Denicao 5.1. A imagem inversa de um conjunto B de
X
, atraves
de X, e o conjunto de elementos em w tais que X(w) B, isto e
X
1
(B) = w : X(w) B.
Observe que, se A e B s ao dois conjuntos em
X
, temos X
1
(A
B) = X
1
(A) X
1
(B), que X
1
(A B) = X
1
(A) X
1
(B) e que
tais operacoes s ao v alidas para uma sequencia enumeravel de eventos.
Se assumimos que a imagem inversa de qualquer conjunto A em
X
pertence a , isto e, X
1
(A) , A
X
, podemos denir
P
X
(A) = P(X
1
(A)), A
X
.
Observe que:
P
X
(') = P(X
1
(')) = P() = 1, e que se (A
n
)
n1
e uma sequencia
de eventos em
X
, dois a dois disjuntos
P
X
(

n=1
A
n
) = P(X
1
(

n=1
A
n
)) = P(

n=1
X
1
(A
n
)) =

n=1
P(X
1
(A
n
)) =

n=1
P
X
(A
n
).
Portanto os axiomas de Kolmogorov est ao satisfeitos e o espa co de
probabilidades (',
X
, P
X
) esta bem denido e procedemos na formal-
izac ao do conceito:
Denicao 5.2. Seja (, , P) um espaco de probabilidade e X uma
aplicac ao de em'. X e uma variavel aleatoria se X
1
(A) , A

X
, where
X
e o conjunto das partes de X().
Denominamos (',
X
, P
X
) como o espaco de probabilidade induzido
por X.
Observemos que a congurac ao de um conjunto A de
X
e A =
x
i
1
, ..., x
i
k
, onde x
i
j
= X(w
i
j
) para algum w
i
j
. Portanto A
pode ser escrito como a uni ao disjunta dos conjuntos unit arios x
i
j
,
A =
k
j=1
x
i
j
e
X
1
(A) = X
1
(
k
j=1
x
i
j
) =
k
j=1
X
1
(x
i
j
))
com
P
X
(A) = P(X
1
(A)) = P(
k
j=1
X
1
(x
i
j
)) =

k
j=1
P(X
1
(x
i
j
)) =
k
j=1
P
X
(x
i
j
).
Consequentemente o espaco de probabilidade induzido por X ca
completamente caracterizado pelos valores x
i
que X assume e suas
probabilidades P(X = x
i
) com 0 P(X = x
i
) 1 e P(X = x
i
) = 1.
47
Denicao 5.3. A func ao que associa o valor da vari avel aleat oria ` a
sua probabilidade e denominada funcao de probabilidade.
x x
1
x
2
... x
n
P(X = x) P(X = x
1
) P(X = x
2
) ... P(X = x
n
)
Exemplo 5.4. Lancamos, independentemente, uma moeda equilibrada
tres vezes obtendo o espaco amostral
= (c, c, c), (c, c, r), (c, r, c), (r, c, c), (c, r, r), (r, c, r), (r, r, c), (r, r, r).
Seja X a vari avel aleatoria denida como o n umero de caras nos tres
lancamentos. Portanto X assume os valores 0, 1, 2 ou 3 com probabili-
dades
1
8
,
3
8
,
3
8
e
1
8
, respectivamente, correspondendo ` as imagens inversas
de cada valor da variavel.
Podemos ter interesse na probabilidade de obtermos no m aximo duas
caras e calculamos:
P(X 2) = P(X 0, 1, 2) = P(X = 0) +P(X = 1) +P(X = 2) =
1
8
+
3
8
+
3
8
=
7
8
,
que, tambem, pode ser obtida pelo complementar
P(X 2) = 1 P(X > 2) = 1 P(X = 3) = 1
1
8
=
7
8
.
A probabilidade de obtermos mais do que uma cara conhecendo que
o lancamento resultou em no m aximo duas caras e
P(X > 1[X 2) =
P(X > 1, X 2)
P(X 2)
=
P(X = 2)
P( 2)
=
3
8
7
8
=
3
7
.
Exemplo 5.5. Seja N um n umero natural positivo e Y uma vari avel
aleat oria assumindo os valores 1, 2, ..., N com probabilidades P(Y =
n) = c2
n
, 1 n N onde c e uma constante. Qual o valor de c?
O n umero c deve ser positivo pois as probabilidades s ao valores pos-
itivos. Como a soma das probabilidades e igual a um temos
1 =
N

n=1
c.2
n
= c.
N

n=1
2
n
= c.2+2
2
+...+2
N
= c.2.
1 2
N
1 2
= c.2.(2
N
1)
de maneira que c =
1
2
N+1
2
.
Uma vari avel aleatoria pode assumir um n umero innito de valores
como no exemplo:
48
Exemplo 5.6. Uma variavel aleat oria Z, discreta, assumindo valores
nos n umeros naturais positivos com probabilidades P(Z = n) =
1
2
n
e
bem denida pois P(Z = n) 0 e

n=1
P(Z = n) =

n=1
1
2
n
=
1
2
1
1
2
= 1.
Alem da funcao de probabilidade a fun cao de distribuic ao da variavel
aleat oria X caracteriza completamente o modelo de probabilidade
Denicao 5.7. Se X e uma vari avel aleat oria, a func ao de distribuicao
de X, do conjunto dos n umeros reais, ' em [0, 1] e denida por
F
X
: ' [0, 1]
F
X
(x) P(X x).
Exemplo 5.8. Seja X o n umero de caras em tres lancamentos inde-
pendentes de uma moeda equilibrada, a fun cao de probabilidade de X
e
x 0 1 2 3
P(X = x) 1/8 3/8 3/8 1/8
e a funcao de distribuicao F
X
(x) = F(x).
F(x) =
_

_
0 : x < 0
1
8
: 0 x < 1
4
8
: 1 x < 2
7
8
: 2 x < 3
1 : x 3
.
Observe que P(X = 2) = F(2) F(2

) =
7
8

4
8
=
3
8
.
As propriedades da func ao de distribuic ao n ao ser ao demonstradas,
mas citadas informalmemte:
A) A fun cao de distribuicao e uma func ao nao decrescente em '.
B)lim
x
F(x) = 0 e lim
x
F(x) = 1.
C) lim
xa
+ F(x) = F(a) e lim
xa
F(x) = F(a

),a ', isto e,


F(x) e contnua `a direita, mas pode nao ser contnua ` a esquerda.
D) A fun cao de distribuic ao determina completamente a func ao de
probabilidade, isto e,
P(X = x) = F(x) F(x

), x '.
Uma medida centralizadora dos valores da vari avel aleat oria e o seu
Valor Esperado ou Media da vari avel.
49
Denicao 5.9. Se X e uma vari avel aleat oria com func ao de proba-
bilidade
x x
1
x
2
... x
n
P(X = x) P(X = x
1
) P(X = x
2
) ... P(X = x
n
)
denimos a media de X, que denotamos por E[X] ou , `a soma
=
n

i=1
x
i
P(X = x
i
).
Se X assume valores em um conjunto de cardinalidade innita, a
serie =

i=1
x
i
P(X = x
i
) deve ser absolutamente convergente, caso
contr ario dizemos que a media n ao existe.
Exemplo 5.10. Se X e uma vari avel aleatoria com func ao de proba-
bilidade
x 3 1 0 1 2 3 5 8
P(X = x) 0, 1 0, 2 0, 15 0, 2 0, 1 0, 15 0, 05 0,05
Ent ao
= 3.0, 1+1.0, 2+0.0, 15+1.0, 2+2.0, 1+3.0, 15+5.0, 05+8.0, 05 = 1.
Exemplo 5.11. Se X e uma vari avel aleatoria com func ao de proba-
bilidade
x 1 2 ... n ...
P(X = x)
1
2
1
2
2
...
1
2
n
...
Ent ao
=

n=1
n
2
n
=

n=0
(n + 1)
2
n+1
=

n=0
1
2
(
n + 1
2
n
) =
1
2
[

n=0
(
n
2
n
)+

n=0
(
1
2
n
)].
Portanto

n=1
n
2
n

1
2

n=1
(
n
2
n
) =
1
2
(
1
1
1
2
)
e =

n=1
n
2
n
= 2.
Exemplo 5.12. Se X e uma vari avel aleatoria com func ao de proba-
bilidade
x 2 2
2
... 2
n
...
P(X = x)
1
2
1
2
2
...
1
2
n
...
Ent ao

n=1
2
n
2
n
= e a media nao existe.
Por vezes estamos interessados em variaveis aleatorias que resultam
de composicao de outra vari avel. Por exemplo, seja X uma vari avel
aleat oria e Y = g(X), onde g e uma func ao real. Pense no esquema
(, , P) (',
X
, P
X
) (',
g(X)
, P
g(X)
).
50
Y e completamente caracterizada assumindo valores y
i
= g(x
i
) com
probabilidades P(Y = y
i
) =

g(x
i
)=y
i
P(X = x
i
). Portanto
E[g(X)] = E[Y ] =

i
y
i
P(Y = y
i
) =

i
g(x
i
)P(X = x
i
).
Exemplo 5.13. Considere a vari avel aleatoria X no Exemplo 5.10 e a
transformac ao Y = g(X) = X
2
, A vari avel aleat oria Y tem funcao de
probabilidade
y 0 1 4 9 25 64
P(Y = y) 0, 15 0, 4 0, 1 0, 25 0, 05 0, 05
Portanto
E[Y ] = 0.0, 15 + 1.0, 4 + 9.0, 25 + 25.0, 05 + 64.0, 05 = 7, 5 =
(3)
2
.0, 1 + (1)
2
.0, 2 + 0
2
.0, 15 + 1
2
.0, 2+
2
2
.0, 1 + 3
2
.0, 15 + 5
2
.0, 05 + 8
2
.0, 05 = E[X
2
].
Em particular a esperanca da n-esima potencia de vari avel aleatoria,
se existir, e denominada momento.
Denicao 5.14. Seja X uma vari avel aleat oria. O n-esimo momento
de X, denotado por
n
e denida como:

n
= E[X
n
], se existir.
Observe que
1
= = E[X]. Em adicao a esperan ca de potencias
da forma E[(X )
n
] sao denominadas de momentos centrais.
Denicao 5.15. Seja X uma vari avel aleat oria com media . O n-
esimo momento central de X, denotado por
n
e denida como:

n
= E[(X )
n
)], se existir.
Em particular o segundo momento central em torno da media e de-
nominado vari ancia, interpretado como uma medida de dispers ao, em
torno da media.
Denicao 5.16. Se X e uma vari avel aleat oria com media e func ao
de probabilidade
x x
1
x
2
... x
n
P(X = x) P(X = x
1
) P(X = x
2
) ... P(X = x
n
)
denimos a vari ancia de X, que denotamos por E[(X )
2
] =
2
, ` a
soma

2
=
2
=
n

i=1
(x
i
)
2
P(X = x
i
).
51
Se X assume valores em um conjunto de cardinalidade innita, a serie

2
=

i=1
(x
i
)
2
P(X = x
i
) deve ser absolutamente convergente,
caso contr ario dizemos que a variancia n ao existe.
A deni cao da vari ancia resulta em unidades de medida ao quadrado
que diculta sua comparacao com outras quantidades mensur aveis em
unidades. Este vicio e eliminado denindo-se o Desvio Padrao como
a raiz quadrada da vari ancia, denotado por = DP(X) =

2
.
Exemplo 5.17. Calculemos o desvio padrao da vari avel aleatoria X
do exemplo 2.10 em que = E[X] = 1.
V ar(X) =
2
=
8

i=1
(x
i
1)
2
P(X = x
i
) =
(3 1)
2
+ (1 1)
2
+ (0 1)
2
+ (1 1)
2
+
(2 1)
2
+ (3 1)
2
+ (5 1)
2
+ (8 1)
2
= 6, 5.
Portanto = 2, 55.
Observacao 5.18. O c alculo da vari ancia de uma vari avel aleatoria X
com media = E[X] pode ser conduzido da seguinte maneira:

2
=

i
(x
i
)
2
.P(X = x
i
) =

i
(x
2
i
2x
i
+
2
).P(X = x
i
) =

i
x
2
i
.P(X = x
i
)2

i
x
i
P(X = x
i
)+
2

i
.P(X = x
i
) = E[X
2
]
2
.
Portanto, utilizando os resultados dos exemplos 2.10 e 2.13, a re-
sposta do exemplo 2.15 e
2
= 7, 5 1 = 6, 5.
Quando existem, os momentos de uma variavel aleatoria determinam
completamente sua distribuic ao. A demonstra cao do teorema seguinte
pode ser encontrada em literatura mais especca.
Teorema 5.19. Sejam X e Y duas variaveis aleatorias com momentos
nitos
X
n
e
Y
n
, respectivamente. Entao, se
X
n
=
Y
n
, n, as funcoes
de distribuicoes F
X
(.) e F
Y
(.) sao iguais.
Como a func ao de distribuicao caracteriza completamente a medida
de probabilidade induzida pela vari avel aleat oria o Teorema acima e
de grande importancia e, por sua vez, assim o e, a funcao geradora de
momentos denida por
52
Denicao 5.20. Se X e uma vari avel aleat oria. A func ao geradora de
momentos de X, M
X
(t), e o valor esperado E[exp[tX]], se existir, em
um intervalo simetrico, (s, s), de n umeros reais.
M
X
(t) = E[exp[tX]] =

i
exp[tx
i
]P(X = x
i
).
Observacao 5.21. O desenvolvimento de Taylor, em torno do ponto 0,
de uma fun cao innitamente diferenciavel permite escrever
M
X
(t) =

n=0
t
n
n!
M
(n)
X
(0)
onde M
(n)
X
(t) e a n-esima derivada no ponto t.
A serie de Taylor para a funcao exp[tX] e

n=0
(tX)
n
n!
e
M
X
(t) = E[exp[tX]] =

n=0
t
n
E[X]
n
n!
.
Considerando o Teorema 5.19 e comparando as duas expressoes para
M
X
(t) temos M
(n)
X
(0) = E[X]
n
, para todo n e, por sua vez, a func ao
geradora de momentos, quando existe, caracteriza completamente a
distribuic ao da variavel aleat oria.
Exemplo 5.22. No Exemplo 5.10, a fun cao de probabilidade e
x 3 1 0 1 2 3 5 8
P(X = x) 0, 1 0, 2 0, 15 0, 2 0, 1 0, 15 0, 05 0,05
e a fun cao geradora de momentos e
M
X
(t) = 0, 1 exp[3t] + 0, 2 exp[t] + 0, 15 exp[0t]+
0, 2 exp[t] + 0, 1 exp[2t] + 0, 15 exp[3t] + 0, 05 exp[5t] + 0, 05 exp[8t].
A primeira derivada e
M
(1)
X
(t) = 0, 3 exp[3t] 0, 2 exp[t] + 0, 2 exp[t]+
0, 2 exp[2t] + 0, 45 exp[3t] + 0, 25 exp[5t] + 0, 4 exp[8t],
que no valor zero vale
= M
(1)
X
(0) = 0, 3 0, 2 + 0, 2 + 0, 2 + 0, 45 + 0, 25 + 0, 4 = 1.
A segunda derivada e
M
(2)
X
(t) = 0, 9 exp[3t] + 0, 2 exp[t] + 0, 2 exp[t]+
0, 4 exp[2t] + 1, 35 exp[3t] + 1, 25 exp[5t] + 3, 2 exp[8t],
53
que no valor zero vale
M
(2)
X
(0) = 0, 9 + 0, 2 + 0, 2 + 0, 4 + 1, 35 + 1, 25 + 3, 2 = 7, 5.
Tais valores coincidem com os calculados anteriormente e tal argumento
pode sempre ser utilizado.
Exemplo 5.23. Os sal arios de uma pequena empresa s ao distribuidos
de acordo com a vari avel aleat oria Z, em unidades monet arias, que tem
func ao de probabilidade.
z 2 4 6 8
P(Z = z) 0, 4 0, 3 0, 2 0, 1
Perguntamos qual a media salarial? Qual o desvio padrao dos sal arios?
A media dos salarios e = E[Z] = 2.0, 4+4.0, 3+6.0, 2+8.0, 1 = 4.
O segundo momento e
2
= E[Z
2
] = 4.0, 4 + 16.0, 3 + 36.0, 2 +
64.0, 1 = 20, de forma que
2
= V ar(Z) = E[Z
2
]
2
= 20 16 = 4 e
o desvio padr ao de Z e = 2.
Se o empres ario decide dobrar o sal ario e conceder um abono de tres
unidades monetarias, como ca a nova distribuic ao dos salarios, qual a
nova media salarial e qual o desvio padr ao?
A nova representac ao salarial e atraves da vari avel aleatoria Y =
2.Z + 3 que tem func ao de probabilidade
z 7 11 15 19
P(Z = z) 0, 4 0, 3 0, 2 0, 1
com media E[Y ] = 2, 8 +3, 3 +3 +1, 9 = 11 = 2.4 +3 = 2.E[Z] +3.
Em adic ao E[Y
2
] = 19, 6 + 36, 3 + 45 + 36, 1 = 137 e portanto
V ar(Y ) = E[Y
2
] E[Y ]
2
= 16 = 4.4 = 4.V ar(Z).
O prop osito do exemplo anterior e aplicar o Teorema seguinte que
prova a linearidade da esperan ca de uma vari avel aleatoria.
Teorema 5.24. Seja X uma variavel aleatoria com = E[X] < .
Entao, se a e b sao n umeros reais, E[a.X + b] = a E[X] + b. Em
adicao, se E[X
2
] < , temos V ar(a.X +b) = a
2
V ar(X).
Prova
Se x
1
, x
2
, ..., x
n
, ... sao os valores que a variavel X assume, a variavel
Y assume os valores y
1
, y
2
, ..., y
n
, ..., onde y
i
= ax
i
+ b, com proba-
bilidades P(Y = y
i
) = P(X = x
i
).
Portanto
E[a.X +b] = E[Y ] =

i
y
i
P(Y = y
i
) =

i
(a.x
i
+b)P(X = x
i
) =
54
a

i
x
i
P(X = x
i
) +b

i
P(X = x
i
) = aE[X] +b.
E ainda
V ar(a.X+b) = V ar(Y ) = E[(Y E[Y ])
2
] = E[(a.X+ba.E[X]b)
2
] =
E[(a.X a.E[X])
2
] = a
2
E[(X E[X])
2
] = a
2
V ar(X).
5.2. Modelos Probabilsticos Discretos. Frequentemente o Atuario
tem um conjunto de dados a ser adaptado a um modelo probabilstico
conveniente. No que segue reproduziremos modelos classicos que apare-
cem frequentemente em tais situacoes, como as distribuicoes, uniforme,
Bernoulli, binomial, hipergeometrica, geometrica, binomial negativa e
Poisson. Em cada caso procuramos interpretar as situacoes em que tal
modelo e conveniente.
Distribuicao uniforme.
Uma variavel aleatoria X tem distribuicao uniforme em um espaco
amostral nito e enumeravel, = x
1
, ..., x
n
, de cardinalidade n, se
a cada elemento amostral associamos a probabilidade
1
n
. A funcao de
probabilidade e dada por
x x
1
x
2
... x
n
P(X = x)
1
n
1
n
...
1
n
A funcao geradora de momentos e denida por
M
X
(t) =
n

i=1
1
n
exp[tx
i
].
No caso particular em que x
i
= i temos M
X
(t) =
1
n

n
i=1
exp[ti],
com primeira derivada M
(1)
X
(t) =
1
n

n
i=1
i exp[ti] e segunda derivada
M
(2)
X
(t) =
1
n

n
i=1
i
2
exp[ti]. Portanto, avaliadas em zero, temos
M
(1)
X
(0) =
1
n
n

i=1
i =
n + 1
2
= E[X] =
M
(2)
X
(0) =
1
n
n

i=1
i
2
=
n(n + 1)(2n + 1)
6
= E[X
2
]
de maneira que
2
= E[X
2
]
2
=
n
2
1
12
.
Distribuicao de Bernoulli.
O modelo e adequado quando um fenomeno aleatorio apresenta dois
possveis resultados interpretados como sucesso e fracasso.
55
Exemplo 5.25. As apolices direcionadas a indivduos com alto poten-
cial de risco devem ser analisadas separadamente. Uma Cia de seguros
de autom oveis, baseada nos registros do Departamento de Tr ansito,
avalia que a probabilidade de que um indivduo escolhido aleat oriamente
deste registro tenha alto potencial de risco e 0, 001. Aqui podemos in-
terpretar como sucesso o fato de que o indivduo tenha alto potencial
de risco.
A distribuicao de Bernoulli tem um parametro, p, 0 < p < 1, a prob-
abilidade de obtermos sucesso. A variavel aleatoria assume os valores
reais 1 e 0 correspondendo aos resultados sucesso e fracasso, respecti-
vamente. A funcao de probabilidade e dada por
x 0 1
P(X = x) 1 p p
A funcao geradora de momentos de X e
M
X
(t) = p exp[t] + (1 p)
e suas primeira e segunda derivadas sao iguais a M
(1)
X
(t) = M
(2)
X
(t) =
p exp[t] que, avaliadas em 0 resulta em M
(0)
X
(0) = M
(2)
X
(0) = p e con-
sequentemente
= p e
2
= p.(1 p).
Observamos que denimos uma famlia de distribuicoes de Bernoulli,
isto e, para cada valor de p, 0 < p < 1 temos uma distribuicao.
Distribuicao Binomial.
Exemplo 5.26. Suponha que no exemplo anterior escolhemos ao acaso
100 indivduos do registro do DETRAN e que estamos interessados em
calcular a probabilidade de que, dentre os escolhidos, no m aximo 1
tenha alto potencial de risco, isto e, procuramos o n umero de sucessos
em 100 ensaios de Bernoulli independentes e identicamente distribui-
dos.
O exemplo acima nos da ideia das situacoes modeladas pela dis-
tribucao binomial. Utilizamos o modelo binomial quando observamos o
n umero de sucessos em n ensaios de Bernolli independentes e identica-
mente distribuidos com probabilidade de sucesso igual a p, 0 < p < 1.
Se Y e a variavel aleatoria binomial, denotamos, Y B(n, p) onde n e
p sao os parametros da distribuicao. Claramente Y assume os valores
0, 1, 2, ..., n.
Analisemos a probabilidade do evento de obtermos k sucessos, isto
e, Y = k. Observamos que qualquer realizacao desse evento tem
56
probabilidade p
k
(1 p)
(nk)
. Em adicao o n umero de realizacoes que
satisfazem esse evento e
_
n
k
_
e concluimos que
P(Y = k) =
_
n
k
_
p
k
(1 p)
(nk)
, 0 k n.
Observe que 0 P(Y = k) 1 e que, pelo Binomio de Newton
temos
n

i=0
P(Y = k) =
n

i=0
_
n
k
_
p
k
(1 p)
(nk)
= (p + 1 p)
n
= 1.
Utilizando o mesmo argumento vericamos que a funcao geradora de
momentos de Y e
M
X
(t) =
n

i=0
exp[it]
_
n
k
_
p
k
(1 p)
(nk)
= [p exp[t] + (1 p)]
n
.
Portanto M
(1)
Y
(t) = n[p exp[t] + (1 p)]
n1
p exp[t], com = E[Y ] =
M
(1)
Y
(0) = np e
M
(2)
Y
(t) = n(n 1)[p exp[t] + (1 p)]
(n2)
p
2
exp[2t]+
n[p exp[t] + (1 p)]
(n1)
p exp[t].
No valor 0 temos
E[Y
2
] = M
(2)
Y
(0) = n.(n 1).p
2
+n.p
e

2
= n.(n 1).p
2
+n.p n
2
.p
2
= n.p.(1 p).
Exemplo 5.27. No exemplo acima a variavel aleatoria Y e o n umero
de indivduos que tenham alto potencial de risco. Y B(100, 0, 001).
Esperamos que entre os 100 escolhidos = np = 100.0, 001 = 0, 1
indivduos tenham alto potencial de risco. A probabilidade de que no
m aximo 1 tenha tenha alto potencial de risco e
P(Y 1) =
_
100
0
_
0, 999
100
+
_
100
1
_
0, 001.0, 999
99
.
Distribuicao Binomial Negativa.
Como a distribuicao binomial a distribuicao binomial negativa, de-
notada por Z, considera ensaios de Bernoulli independentes e identi-
camente distribuidos com probabilidade de sucesso igual a p, 0 < p < 1,
mas em um n umero innito. A variavel aleatoria Z e denida como o
n umero de fracassos ate o r-esimo sucesso na serie de ensaios. Clara-
mente Z assume os valores no conjunto N, dos n umeros naturais. O
evento Z = k ocorre quando em r +k ensaios de Bernoulli, o ultimo
57
ensaio e sucesso e existirem k fracassos nos r+k1 ensaios anteriores.
O n umero de maneiras de tais realizacoes e
_
r+k1
k
_
e a probabilidade
de cada realizacao e p
r
.(1 p)
k
, de forma que
P(Z = k) =
_
r +k 1
k
_
p
r
.(1 p)
k
, k 0.
Cumpre observar que o n umero combinatorio
_
x
k
_
=
x.(x1)...(xk+1)
k!
esta bem denido quando x e qualquer n umero real desde que k seja um
inteiro positivo. Para valores inteiros negativos de k denimos
_
x
k
_
= 0.
Pode-se provar que
_
r +k 1
k
_
= (1)
k
_
r
k
_
e que

k=0
(1)
k
_
r
k
_
(1 p)
k
= p
r
.
Portanto

k=0
P(Z = k) =

k=0
_
r +k 1
k
_
p
r
.(1 p)
k
=
p
r

k=0
_
r
k
_
(1)
k
(1 p)
k
= p
r
p
r
= 1.
A funcao geradora de momentos da distribuicao binomial negativa e
calculada atraves de
M
Z
(t) = E[exp[tZ]] =

k=0
exp[tk].
_
r +k 1
k
_
p
r
.(1 p)
k
=
p
r

k=0
_
r
k
_
(1)
k
((1 p) exp[t])
k
=
p
r
(1 (1 p) exp[t])
r
= [
1 ((1 p) exp[t])
p
]
r
.
A primeira derivada de M
Z
(t) e
M
(1)
Z
(t) = r(
p
1 (1 p) exp[t]
)
r1
p.(1 p) exp[t]
(1 (1 p) exp[t])
2
e = E[Z] = M
(1)
Z
(0) = r
(1p)
p
.
58
O leitor pode vericar que a variancia de Z e dada por

2
= V ar(Z) = M
(2)
Z
(0) M
(1)
Z
(0)
2
= r
(1 p)
p
2
.
Exemplo 5.28. O n umero anual de sinistros contra uma ap olice de se-
guro de autom ovel e modelado por uma distribui cao binomial negativa
com parametros r = 5 e p = 0, 9.
O n umero esperado de sinistros e =
5.0,1
0,9
= 0, 56 e a variancia so
n umero de sinistros,
2
=
5.0,1
0,81
= 0, 62. Observe que a variancia e maior
do que o valor esperado, constratando com a vari ancia da distribuic ao
binomial que e menor do que seu valor esperado. Na pr atica atuarial
este fato e relevante para modelar o n umero de sinistros contra uma
ap olice, ou um grupo de ap olices, por certo perodo,como uma binomial
negativa.
A probabilidade de que nenhum sinistro ocorra no pr oximo ano e
P(Z = 0) =
_
4
0
_
0, 9
5
= 0, 59.
Exemplo 5.29. O n umero anual de perdas contra uma apolice de
seguros e modelado por uma distribuic ao binomial negativa com media
4 e vari ancia 8. Com tal informac ao os valores dos par ametros p e r
s ao calculados a partir das equac oes
r(1 p)
p
= 4;
r(1 p)
p
2
= 8
com soluc oes p = 0, 5 e r = 4
A probabilidade de que ocorra ao menos 3 perdas e
P(Z 3) = 1 P(Z < 3) = 1 [P(Z = 0) +P(Z = 1) +P(Z = 2)] =
1 [
_
3
0
_
(0, 5)
4
+
_
4
1
_
(0, 5)
5
+
_
5
2
_
(0, 5)
6
= 0, 34.
Exemplo 5.30. Ao modelar o n umero de sinistros solicitados por um
indivduo, com respeito a uma apolice de seguro de autom ovel, durante
um perodo de tres anos, o Atu ario assumiu simplesmente que, para
todo inteiro n, n 0, a probabilidade, p
n
, de que o segurado reclame
n sinistros satisfaca a equacao p
n+1
=
1
5
p
n
.
Observe que

n=0
p
n
= 1, e as equivalencias
p
0
+

n=1
p
n
= p
0
+

n=0
p
n+1
= p
0
+

n=0
1
5
p
n
= 1 p
0
+
1
5
= 1 p
0
=
4
5
s ao verdadeiras e se X e o n umero de sinistros reclamados
P(X = k) =
4
5
1
5
k
59
um caso particular da distribui cao binomial negativa com par ametros
r = 1 e p =
4
5
.
Esta distribuicao tem import ancia por s e e denominada distribui cao
geometrica.
Distribuicao Geometrica
A distribuicao geometrica tambem e relacionada com uma serie in-
nita de ensaios de Bernoulli, independentes e identicamente distribui-
dos, com probabilidade de sucesso p, 0 < p < 1.
Seja X o n umero de fracassos ate o primeiro sucesso. Obviamente X
assume valores em N, o conjunto dos n umeros naturais. A realizacao
do evento X = k acontece com fracassos nos k 1 ensaios iniciais
seguidos de um sucesso. Assim, a distribuicao de probabilidade de X e
dada por
P(X = k) = (1 p)
k
p, k = 0, 1, 2, ...
Como caso particular da distribuicao binomial negativa temos
M
X
(t) =
p
1 ((1 p) exp[t])
,
E[X] =
(1p)
p
e V ar(X) =
(1p)
p
2
.
A distribuicao geometrica pode modelar tambem o n umero de ensaios
ate o primeiro sucesso, X

, que tem funcao de distribuicao


P(X

= k) = (1 p)
k1
p, k = 1, 2, ...
Note que X = X + 1 e assim E[X

] = E[X] + 1 =
1
p
e V ar(X

) =
V ar(X).
Exemplo 5.31. Suponha que um engenheiro inspeciona determinada
m aquina em perodos discretos de tempo e observa se a m aquina que-
brou durante o perodo anterior. Independente do perodo, a proba-
bilidade da maquina quebrar em determinado perodo e p, 0 < p < 1.
Qual a probabilidade da maquina n ao quebrar ate o n-esimo perodo.
Se X

representa o n umero de perodos ate a primeira falha, a prob-


abilidade da maquina n ao quebrar ate o n-esimo perodo e
P(X

> n) =

k=n+1
(1 p)
k1
.p = p

k=n+1
(1 p)
k1
= (1 p)
n
.
Se a m aquina funcionou por n perodos consecutivos, a probabilidade
de funcionar por m perodos adicionais e
P(X

> m+n[X

> n) =
P(X

> m+n, X

> n)
P(X

> n)
=
60
P(X

> m+n
P(X

> n)
=
(1 p)
m+n
(1 p)
n
= (1 p)
m
= P(X

> m).
Esta e a propriedade de falta de mem oria de uma distribui cao. Ela
caracteriza a distribuic ao geometrica como a unica vari avel aleat oria
discreta com tal propriedade. Concluimos que a m aquina em uso e
equivalente ` a maquina nova.
Distribuicao de Poisson
O principal uso da distribuicao de Poisson e na modelagem da ocorrencia
de eventos aleatorios no tempo, ('
+
), no plano cartesiano, ('
+
X'
+
)ou
no espaco, ('
+
X'
+
X'
+
). Como funcao aleatoria e do tempo e inter-
pretada como um processo estocastico. Uma outra propriedade e que a
distribuicao de Poisson aproxima assintoticamente a distribuicao bino-
mial, B(n, p), quando os parametros n e grande e p pequeno.
Em termos analticos, trabalhar com a distribuicao de Poisson e ex-
tremamente simples: N e uma variavel aleatoria de Poisson se assume
valores no conjunto dos n umeros naturais, N, com probabilidades
P(N = k) =
exp[]
k
k!
, k = 0, 1, 2, ...,
onde , o parametro de distribuicao e um n umero real positivo. Na
realidade estamos denindo uma famlia de distribuicoes pois a cada
temos, em correspondencia, uma distribuicao.
Note que

k=0
P(N = k) =

k=1
exp[]
k
k!
= exp[].

k=1

k
k! = exp[]. exp[] = 1.
A esperanca de N e
= E[N] =

k=0
kP(N = k) =

k=1
k
exp[]
k
k!
=
. exp[].

k=1

k1
(k 1)!
= .
Utilizando do mesmo argumento temos
E[N(N 1)] =

k=0
k(k 1)P(N = k) =

k=2
k.(k 1)
exp[]
k
k!
=

2
.

k=2
exp[]
k2
(k 2)!
=
2
.
Portanto

2
= V ar(N) = E[N
2
]
2
= E[N(N1)]+E[N]
2
=
2
+
2
= .
61
A funcao geradora de momentos e
M
N
(t) = E[exp[tN]] = exp[.(exp[t] 1)].
Observacao 5.32. A distribuicao binomial, Y B(n, p), pode ser aproox-
imada por uma distribuic ao de Poisson de parametro = np quando
n e grande e p pequeno. Observe que
P(Y = k) =
_
n
k
_
p
k
(1 p)
nk
=
1
k!
n.(n 1).(n 2)....(n k + 1)
n
k

k
(1

n
)
n
(1

n
)
n

exp[]
k
k!
,
quando n .
Exemplo 5.33. Uma Cia de Seguros vende 10.000 ap olices residenciais
em determinado perodo. A probabilidade de que uma residencia seja
destruida por um incendio e 0, 001 e neste caso, o benefcio a ser pago
pela perda total e de 200.000 unidades monetarias.
Se Y e o n umero de segurados que tem perda total no perodo, Y
tem distribuicao binomial de par ametros n = 10.000 e p = 0, 001, o
n umero esperado de segurados que solicitam o benefcio no perodo e
E[Y ] = 10.000.0, 001 = 10.
A a probabilidade de que, no perodo, 15 segurados solicitem o
benefcio e
P(Y = 15) =
_
10.000
15
_
0, 001
15
0, 999
9985
,
uma expressao com c alculos complicados. Como o par ametro n e
grande e p, pequeno podemos aproximar Y pela variavel aleat oria de
Poisson N, com par ametro = np = 10.
P(Y = 15) P(N = 15) =
exp[10]10
15
15!
= 0, 0347.
Como a cada solicitac ao a Cia. de Seguros paga 200.000 unidades
monet aria, o custo esperado para o pagamento e
E[200.000Y ] = 200.000.E[Y ] = 200.000.10 = 2.000.000.
quantia que pode ser interpretada como uma reserva mnima para paga-
mento das solicitac oes, pois existem outros custos, como os adminis-
trativos e de pessoal, que devem ser contabilizados.
62
Exemplo 5.34. A probabilidade de sofrer os efeitos colaterais de de-
terminada droga e de 0, 005. Se 1000 pessoas s ao inoculadas, qual a
probabilidade de que 20 pessoas sofram estes efeitos?
Observe que cada pessoa inoculada pode sofrer, ou nao, os efeitos
colaterais e portanto e considerada como uma Bernoulli. O n umero de
pessoas que sofrem dos efeitos e uma vari avel binomial de parametros
n = 1000 e p = 0, 005. Portanto
P(Y = 20) =
_
1000
20
_
(0, 005)
20
(0, 995)
980
,
que pode ser aproximado por
P(N = 20) =
exp[5]5
20
20!
onde N tem distribuic ao com media np = 5.
Exemplo 5.35. Em uma Central Telef onica, o uxo de chamadas em
certos perodos e intenso e o n umero de tais chamadas pode ser mod-
elado com uma distribuic ao de Poisson. Suponha que o parametro
seja 8 chamadas por segundo. A probabilidade de que em um segundo
tenhamos ao menos 5 chamadas e
P(N 5) = 1 P(N < 5) = 1 P(N = 0) +P(N = 1)+
P(N = 2) +P(N = 3) +P(N = 4) =
1 0, 0003 + 0, 0027 + 0, 0107 + 0, 0286 + 0, 0573 = 0, 9004.
Se a media da distribuic ao e 8 chamadas por segundo, em 3 segundos
teremos uma media de = 3.8 = 24. Portanto, a probabilidade de
que tenhamos 2 chamadas em 3 segundos e
P(N

= 2) =
exp[24]24
2
2!
= 1, 0872 exp[8].
Observacao 5.36. No exemplo anterior poderamos perguntar qual a
probabilidade de que ter k chamadas em t segundos. De maneira l ogica
escreveramos
P(N(t) = N = N

= k) =
exp[8.t]8t
k
k!
, k = 0, 1, 2, ....
Na express ao em que adotamos N(t) = N

= N, descrevemos uma
distribuic ao (processo) de Poisson com media 8t e de par ametro = 8
que denominamos intensidade do processo.
O processo de Poisson (N(t))
t0
com intensidade , tem distribuic ao
de Poisson
P(N(t) = k) =
exp[.t](.t)
k
k!
, k = 0, 1, 2, ....
63
que e uma func ao do tempo t '
+
e aleatoria w , isto e, para
cada t > 0, N(t) e uma vari avel aleat oria. Portanto (N(t))
t0
e uma
familia de variaveis aleat orias denominada de processo estoc astico (ho-
mogeneo)de Poisson. O processo de Poisson caracteriza a ocorrencia
de eventos aleatorios no tempo.
Exemplo 5.37. O Sinistros ocorrem contra uma ap olice de acordo
com um processo de Poisson com uma intensidade de 0, 3 a cada ano.
Qual a probabilidade de que, nos proximos 5 anos ocorram 3 sinistros?
Claramente,
P(N(5) = 3) =
exp[0, 3.5](0, 3.5)
3
3!
= 0, 08.
Exemplo 5.38. Devido aos fortes nevoeiros no inverno o aeroporto de
Congonhas, S.P., fecha para pousos e decolagens de acordo com uma
distribuic ao de Poisson com media de 2 vezes ao ano. Determine a
probabilidade de que o aeroporto paralize suas atividades pela segunda
vez, conhecendo que ja paralizou uma vez no corrente ano.
Seja N o n umero de paralizac oes anuais. Queremos calcular
P(N = 2[N 1) =
P(N = 2, N 1)
P(N 1)
=
P(N = 2)
P(N 1)
=
exp[2]2
2
2!
1 exp[2]
.
Ocorrencia de eventos aleatorios no tempo
A escolha aleatoria, ou casual de um elemento da populacao nita,
x
1
, x
2
, ..., x
n
, e atraves da distribuicao uniforme que associa a cada
elemento a probabilidade
1
n
. Como veremos no proximo captulo a
ocorrencia aleatoria de eventos em (0, t] se da de acordo com a dis-
tribuicao uniforme em (0, t], atraves da funcao densidade de probabil-
idade f(s) =
1
t
se s (0, t] e 0 caso contrario, que atribui probabil-
idades iguais a cada intervalo de igual comprimento. O que podemos
dizer quando t , isto e, da ocorrencia de eventos em '
+
?
Seja (N(t))
t0
o processo estocastico que, para cada t, conta o n umero
de eventos que ocorrem em (0, t]. O n umero de eventos no intervalo
(s, t] e denotado por N(t) N(s). A ocorrencia aleatoria de eventos no
tempo se caracteriza pelas seguintes suposicoes:
I - (N(t))
t0
tem incrementos independentes, isto e, a distribuicao
das ocorrencias em intervalos de tempos disjuntos sao independentes:
se (s
1
, t
1
] (s
2
, t
2
] = , entao
P(N(t
1
) N(s
1
) = i, N(t
2
) N(s
2
) = j) =
P(N(t
1
) N(s
1
) = i).P(N(t
2
) N(s
2
) = j).
64
II - (N(t))
t0
tem incrementos estacionarios, isto e, as ocorrencias
em intervalos de mesmo comprimento tem mesma distribuicao:
P(N(t) N(s) = k) = P(N(t s) = k).
III - A probabilidade de uma ocorrencia em um intervalo innitesi-
mal de tempo, (t, t +t] e
P(N(t) = 1) = t +o(t),
onde o(t) e tal que lim
t0
o(t)
t
= 0.
IV - A probabilidade de mais de uma ocorrencia em um intervalo
innitesimal de tempo, (t, t +t] e
P(N(t) > 1) = o(t).
Observacao 5.39. o(t) representa uma func ao real que, quando t 0,
o(t) 0 mais rapidamente, isto e
o(t)
t
0. Por exemplo f(t) = t
2
e o(t)
pois lim
t0
t
2
t
= 0, contudo, f(t) =

t n ao e o(t) pois lim


t0

t
t
= .
Se o processo (N(t))
t0
satisfaz as suposicoes acima, entao e um
processo de Poisson. Delinearemos uma prova heurstica:
Dividimos o intervalo (0, t] em intervalos innitesimais da forma
(
kt
n
,
(k+1)t
n
], 0 k n 1, de comprimento
t
n
.
Observe que, das suposicoes III e IV, o n umero de ocorrencias em
cada intervalo (
kt
n
,
(k+1)t
n
] e uma variavel aleatoria de Bernoulli com
probabilidade de sucesso
.t
n
+o(
t
n
) . Das suposicoes I e II podemos ar-
mar que tais Bernoullis sao independentes e identicamente distribuidas.
Portanto, N(t), o n umero de ocorrencias em (0, t] tem distribuicao bi-
nomial de parametros n e p =
.t
n
+o(
t
n
).
Como n e grande, podemos aproximar a distribuicao binomial pela
distribuicao de Poisson com parametro .t pois
np = n(
.t
n
+o(
t
n
)) = .t +t.
o(
t
n
)
t
n
.t
quando n .
Exemplo 5.40. Em uma ind ustria, para vericar se a ocorrencia de
acidentes com oper arios ocorriam ao acaso, observou-se o n umero de
acidentes por hora durante um certo n umero de dias (24 horas por
dia)obtendo os dados:
65
No. de acidentes por hora No. de horas
0 200
1 152
2 60
3 30
4 13
5 9
6 7
7 5
8 4
Sobre as 480 horas observadas, o n umero medio de acidentes por
hora e
1
480
200.0 + 152.1 + 60.2 + 30.3 + 13.4 + 9.5 + 7.6 + 5.7 + 4.8 = 1, 2.
Se os acidentes ocorrecem aleatoriamente, N, o n umero de acidentes
por hora teria, aproximadamente, uma distribuic ao de Poisson com
media 1, 2. Aceitando tal distribui cao como verdadeira, o n umero es-
perado de horas com k acidentes e 480.P(N = k) = 480.
exp[1,2](1,2)
k
k!
e
o o n umero esperado de horas com 0, 1, 2, ... acidentes s ao
No. de acidentes por hora No. esperado de horas
0 144,6
1 173,5
2 104,1
3 41,6
4 12,9
5 3
6 0,6
7 0,1
8 0
que podem ser considerados diferentes dos valores observados e con-
cluimos que os acidentes n ao est ao ocorrendo aleat oriamente.
66
6. CAP

ITULO 6
Variaveis Aleat orias Contnuas
6.1. Variaveis Aleatorias Contnuas. A ttulo de introducao e para
observar como os modelos contnuos aparecem naturalmente na pratica,
recordemos, do captulo anterior, um exemplo:
Exemplo 6.1. Um engenheiro inspeciona determinada maquina em
perodos discretos de tempo e observa se a maquina quebrou durante o
perodo anterior. Independente do perodo, a probabilidade da maquina
quebrar em determinado perodo e p, 0 < p < 1. A probabilidade da
m aquina nao quebrar ate o n-esimo perodo foi calculada e e igual a
(1 p)
n
.
Suponha, agora, que o engenheiro inspeciona a m aquina contin-
uamente no tempo e que as condic oes para que as falhas ocorram
aleat oriamente sejam verdadeiras, isto e, se N(t) conta o n umero de
falhas em (0, t], as suposic oes I, II, III e IV, das ocorrencias aleat orias
no tempo, do captulo anterior, s ao satisfeitas.
Se dividimos o intervalo (0, t] em intervalos innitesimais da forma
(
kt
n
,
(k+1)t
n
], 0 k n 1, de comprimento
t
n
, concluimos que, como
na aproximac ao da distribui cao binomial pela distribui cao de Poisson
demonstrada no Captulo anterior, N(t), o n umero de ocorrencias em
(0, t] tem distribui cao binomial de par ametros n e p =
.t
n
+o(
t
n
).
Seja, agora, T o tempo da ocorrencia do primeiro evento de N(t).
Claramente, quando n ,
P(T > t) = P(N(t) = 0) = (1
.t
n
o(
t
n
))
n
exp[.t].
Portanto, a func ao de distribui cao de T e F
T
(t) = 1 exp[.t], da
distribuic ao exponencial de parametro , denida em '
+
, e contnua e
que estudaremos, com mais detalhes, nas pr oximas secoes.
Passemos `a denicao da variavel aleatoria contnua com argumen-
tos semelhantes `aqueles da denicao das variaveis aleatorias discretas.
Contudo, se o espaco amostral e o resultado de um experimento quan-
titativo contnuo, a imagem de atraves de uma funcao real X nao
e, certamente, enumeravel e nao podemos denir
X
como o conjunto
das partes de X().
Para termos uma nocao de como abordar a questao, observe que qual-
quer subconjunto dos n umeros reais pode ser obtido atraves de operacoes,
em um n umero nito ou innito enumeravel, de intervalos da forma
(, t]. Entre outras operacoes, exemplicamos:
67
(t, ) = (, t];
(s, t] = (, t] (, s], s < t;
t =

n=1
(t
1
n
, t +
1
n
].
Denicao 6.2. Denimos como sendo a classe de subconjuntos
dos reais obtida atraves das operac oes de reuni ao, interseccao, com-
plementar, em n umero nito ou innito, de subconjuntos na forma
(, t], t '.
Nesta classe denimos a medida de probabilidade induzida pela variavel
aleatoria X : '. Denimos a probabilidade induzida por X, P
X
,
como P
X
(B) = P(X
1
(B)), B , quando X satisfaz a seguinte
denicao:
Denicao 6.3. Seja (, , P) um espaco de probabilidade e X uma
aplicac ao de nos reais ('). X e uma vari avel aleat oria contnua se
X
1
((0, t]) , t '. Denominamos (', , P
X
) como o espa co de
probabilidade induzido por X.
Observe que P
X
esta bem denida e
P
X
((, t]) = P(X
1
((, t])) = P(w : X(w) (, t]) =
P(X t) = F
X
(t)
e a funcao de distribuicao da variavel aleatoria X que , neste caso, e
uma funcao contnua.
Se a funcao de distribuicao de X e diferenciavel com
dF
X
(t)
dt
= f
X
(t),
denimos
Denicao 6.4. Se X e uma vari avel aleatoria contnua com fun cao de
distribuic ao
F
X
(t) =
_
t

f
X
(y)dy,
dizemos que f
X
(t) e a func ao densidade de probabilidade de X e que e
(absolutamente) contnua.
Observacao 6.5.

E evidente que a func ao densidade de probabilidade e
positiva, isto e, f
X
(t) 0, t, que
_

f(x)dx = 1,
P(a < X b) =
_
b
a
f(x)dx
e pode-se provar que
lim
t
f
X
(t) = lim
t
f
X
(t) = 0.
68
Exemplo 6.6. O custo mensal dos sinistros de uma Uma Cia. de
Seguros e modelado por uma vari avel aleat oria X com func ao densidade
de probabilidade
f(x) =
_
0 : x < 0
k.(1 +x)
4
: 0 < x <
,
onde k e uma constante.
Como devemos ter
_

f(x)dx = 1 e
1 = k
_

0
(1 +x)
4
dx =
k
3
(1 +x)
3
[

0
=
k
3
,
temos k = 3.
A func ao de distribuic ao de X e
F(x) =
_
0 : x < 0
_
x
0
3(1 +y)
4
dy = 1 (1 +x)
3
: x 0
.
A probabilidade condicional de que o custo mensal ultrapasse 40
conhecendo-se que e maior do que 10 e
P(X > 40[X > 10) =
P(X > 40, X > 10)
P(X > 10)
=
P(X > 40)
P(X > 10)
=
3
_

40
(1 +y)
4
dy
3
_

10
3(1 +y)
4
dy
= (
11
41
)
3
= 0, 02.
Lembrando que as integrais de Riemann sao limites de somas in-
nitesimais e natural que os parametros de uma variavel aleatoria contnua
sejam denidos de maneira semelhante aos da variavel aleatoria disc-
reta:
Denicao 6.7. Se X e uma variavel aleat oria contnua com funcao
densidade de probabilidade f(x), denimos a media de X, que deno-
tamos por E[X] ou , `a soma
=
_

xf(x)dx,
onde a integral deve ser absolutamente convergente, caso contr ario
dizemos que a media n ao existe.
Por vezes estamos interessados em variaveis aleatorias que resultam
da transformacao de outra variavel. Por exemplo, seja X uma variavel
aleatoria e Y = g(X), onde g e uma funcao real. Pense no esquema
(, , P) (',
X
, P
X
) (',
g(X)
, P
g(X)
).
69
A medida P
g(X)
e caracterizada por
P
g(X)
((, y]) = P(g(X) y) =
_
{x:g(x)y}
f
X
(x)dx.
Pode-se provar que
E[g(X)] = E[Y ] =
_

yf
Y
(y)dy =
_

g(x)f
X
(x)dx.
Exemplo 6.8. No exemplo anterior, em que
f(x) =
_
0 : x < 0
3.(1 +x)
4
: 0 < x <
,
= E[X] = 3
_

0
x(1+x)
4
dx = 3
_

1
(y 1)y
4
dy = 3.(
1
2

1
3
) =
1
2
.
E[X
2
] = 3
_

0
x
2
(1+x)
4
dx = 2
_

0
x(1+x)
3
dx =
1
3
_

0
(1+x)
2
dx = 1.
Em particular a esperanca da n-esima potencia de variavel aleatoria,
se existir, e denominada momento.
Denicao 6.9. Seja X uma vari avel aleat oria contnua. O n-esimo
momento de X, denotado por
n
e denida como:

n
= E[X
n
] =
_

x
n
f(x)dx, se existir.
Observe que
1
= = E[X]. A esperanca de potencias da forma
E[(X )
n
] sao denominadas momentos centrais.
Denicao 6.10. Seja X uma vari avel aleatoria contnua com media .
O n-esimo momento central de X, denotado por
n
e denida como:

n
= E[(X )
n
)] =
_

(x )
n
f(x)dx, se existir.
Em particular o segundo momento central em torno da media e a
variancia, interpretada como uma dispersao em torno da media.
Denicao 6.11. Se X e uma variavel aleatoria contnua com media
e funcao de densidade de probabilidade f(x), denimos a variancia de
X, que denotamos por E[(X )
2
] =
2
, `a integral

2
=
2
=
_

(x )
2
f(x)dx.
70
relembrando que a integral deve ser absolutamente convergente, caso
contr ario dizemos que a vari ancia n ao existe.
Observacao 6.12. Como no caso discreto, e facil provar que
2
=
V ar(X) = E[X
2
]
2
. O desvio padr ao de X e denido pela raiz
quadrada de
2
. No exemplo anterior temos que V ar(X) = 1
1
4
=
3
4
e dP(X) =

3
2
.
Denicao 6.13. Se X e uma variavel aleatoria contnua . A fun cao
geradora de momentos de X, M
X
(t), e o valor esperado E[exp[tX]], se
existir, em um intervalo simetrico, (s, s), de n umeros reais.
M
X
(t) = E[exp[tX]] =
_

exp[tx]f(x)dx.
Exemplo 6.14. Em uma Cia. de manufaturas, as perdas por danos ` a
propriedade segue uma distribuic ao contnua com func ao densidade de
probabilidade f(y) = 0, 02 exp[0, 02y], y > 0. A func ao geradora de
momentos de Y e
M
Y
(t) = E[exp[tY ]] =
_

0
exp[ty]0, 02 exp[0, 02y]dy =
_

0
0, 02 exp[(t 0, 02)y]dy =
0, 02
0, 02 t
, se t < 0, 02.
A primeira derivada de M
Y
(t) e M
(1)
Y
(t) =
0,02
(0,02t)
2
e
E[Y ] = M
(1)
Y
(0) =
1
0, 02
.
A segunda derivada de M
Y
(t) e M
(2)
Y
(t) =
2.(0,02)
(0,02t)
3
que no n umero 0
vale
E[Y
2
] = M
(2)
Y
(0) =
2
(0, 02)
2
.
Portanto a vari ancia de Y e
2
= E[Y
2
] E[Y ]
2
=
1
(0,02)
2
.
71
6.2. Modelos Probabilsticos Contnuos. Como no captulo an-
terior, descreveremos modelos probabilsticos contnuos aplicaveis nas
ciencias atuariais:
Distribuicao uniforme.
Em um espaco amostral discreto e nito, a distribuicao uniforme as-
socia a cada elemento amostral a mesma probabilidade. Em um mod-
elo contnuo cada ponto tem probabilidade igual a zero e a distribuicao
uniforme se caracteriza associando a cada intervalo de mesmo compri-
mento a mesma probabilidade. A variavel aleatoria X tem distribuicao
uniforme em um intervalo nito, (a, b], de n umeros reais se sua funcao
densidade de probabilidade e :
f(x) =
_
1
ba
: a < x b
0 : c.c.
.
A esperanca de X e
= E[X] =
_
b
a
x
b a
dx =
1
b a
x
2
2
[
b
a
=
(b a).(b +a)
2(b a)
=
a +b
2
.
Tambem temos
E[X
2
] =
_
b
a
x
2
b a
dx =
1
b a
x
3
3
[
b
a
=
(b a).(b
2
+ab +a
2
)
3(b a)
=
b
2
+ab +a
2
3
e portanto
V ar(X) =
2
= E[X
2
]
2
=
b
2
+ab +a
2
3
(
a +b
2
)
2
=
(b a)
2
12
.
A funcao de distribuicao de X e
F(x) =
_
_
_
0 : x < a
xa
ba
: a x < b
1 : x b
.
e a funcao geradora de momentos
M
X
(t) = E[exp[tX]] =
_
b
a
exp[tX]
b a
dx =
exp[tb] exp[ta]
t(b a)
.
Exemplo 6.15. Uma seguradora de automoveis cobra R$250, 00 pela
franquia de determinada ap olice e paga o m aximo de R$1.500, 00 por
uma perda total. Se o custo dos sinistros, em relac ao `a apolice, e
modelado por uma distribui cao uniforme no intervalo (0, 2.000], qual a
probabilidade de um pagamento de perda total? Qual a probabilidade
do segurado n ao usar a ap olice?
72
Se X e a vari avel custo, tem distribui cao uniforme no intervalo
(0, 2000], com fun cao densidade de probabilidade
f(x) =
_
1
2.000
: 0 < x 2.000
0 : c.c.
.
A probabilidade de um pagamento de perda total e
P(X > 1.500) =
_
2000
1.500
1
2.000
dx = 0, 25.
Entendemos que o segurado nao usa a ap olice quando a franquia e
maior do que o custo do conserto e portanto, com probabilidade
P(X 250) =
_
250
0
1
2.000
dx = 0, 125.
Distribuicao exponencial.
Como no caso discreto, uma variavel aleat oria contnua ca comple-
tamente caracterizada atraves de sua fun cao de distribuic ao. Introduz-
imos a distribui cao exponencial:
Denicao 6.16. Uma vari avel aleatoria T tem func ao de distribuic ao
exponencial se, e somente se,
F
T
(t) =
_
0 : t < 0
1 exp[t] : t 0
.
F
T
(t) = 1 exp[.t].
F
T
(t) e diferenci avel e tem func ao densidade de probabilidade
f(t) =
_
0 : t < 0
exp[t] : t 0
.
A func ao geradora de momentos de T e dada por
M
T
(t) = E[exp[t.T]] =
_

0
exp[tx]exp[.x]dx =
_

0
exp[x.( t)]dx =

t
, t < .
com primeira e segunda derivadas iguais a M
(1)
T
(t) =

(t)
2
e M
(2)
T
(t) =
2..(t)
(t)
4
, respectivamente. No ponto zero temos
= E[T] = M
(1)
T
(0) =
1

73
e E[T
2
] = M
(2)
T
(0) =
2

2
de forma que

2
= V ar(T) =
2

2

1

2
=
1

2
.
Observe que a media de T e o inverso de seu par ametro.
Exemplo 6.17. Uma Cia. de Seguros tem observado que o custo dos
sinistros de aeronaves de porte medio e modelado por uma vari avel
aleat oria com func ao de distribui cao
F(t) =
_
0 : t < 0
1 exp[0, 001t] : t 0
.,
isto e, X tem distribuic ao exponencial. A probabilidade de um sinistro
com custo maior do que 4.000 e
P(X > 4.000) = 0, 001
_

4.000
exp[0, 001x]dx = exp[4] = 0, 018.
Se escolhemos casualmente 389 aeronaves seguradas, qual a proba-
bilidade de que entre elas 10 reclamem sinistros com custos maiores
do que 4.000? Se Y e denida como o n umero de aeronaves, den-
tre as 389, que reclamem sinistros com custos maiores do que 4.000,
Y tem distribuic ao binomial com parametros n = 389 e p = 0, 018
e P(Y = 10) =
_
389
10
_
(0, 018)
10
(0, 982)
379
, de calculo difcil. Como
n = 389 e grande e p = 0, 018 e pequeno podemos aproximar a dis-
tribuic o binomial pela distribuic ao de Poisson com media, a mesma
de binomial, = n.p = 389.0, 018 = 7. Assim, se N tem distribuic ao
de Poisson com = 7,
P(Y = 10) = P(N = 10) =
exp[7]7
10
10!
= 0, 07.
Introduzimos este captulo exemplicando que a distribuicao expo-
nencial e uma extensao contnua da distribui cao geometrica e como tal,
tambem apresenta a propriedade de falta de mem oria. Uma vari avel
aleat oria T contnua e positiva que modela, por exemplo, o tempo de
funcionamento de um componente eletr onico tem a propriedade de falta
de memoria se, e somente se,
P(T > t +s[T > s) = P(T > t),
onde P(T > t) = 1 P(T t).
Teorema 6.18. T e uma variavel aleatoria contnua com a propriedade
de falta de memoria se, e somente se, T tem distribuicao exponencial.
Prova Se denotamos g(t) = P(T > t) temos que 1 g(t) 1 e que
g(t +s) = g(t)g(s).
74
Para todo n umero natural n, temos
g(n) = g(1 + 1 +... + 1) = g(1).g(1)....g(1) = g(1)
n
.
Portanto g(1) ,= 1 pois, caso contrario, teramos 0 = lim
n
g(n) =
lim
n
g(1)
n
= 1, que e uma contradicao.
Em adicao
g(1) = g(
n
n
) = g(
1
n
+
1
n
+... +
1
n
) = g(
1
n
)
n
,
o que implica g(
1
n
) = g(1)
1
n
.
Portanto g(1) ,= 0 pois, caso contrario, teramos 1 = lim
n
g(
1
n
) =
lim
n
g(1)
1
n
= 0, que tambem e uma contradicao.
Concluimos entao que 0 < g(1) < 1 e que existe um n umero real
positivo , a imagem inversa de g(1) atraves da funcao exponencial
f(x) = exp[x] tal que g(1) = exp[]
Pelo mesmo argumento, se n e m sao n umeros naturais
g(
n
m
) = g(
1
m
+
1
m
+... +
1
m
) = g(
1
m
)
n
= g(1)
n
m
,
e concluimos que g(x) = exp[x], x Q, onde Q e o conjunto dos
n umeros racionais. Como Q e denso em ', temos
g(t) = P(T > t) = exp[t], t '
+
.
Consequentemente, a funcao de distribuicao de T e
F(t) =
_
0 : t < 0
1 exp[t] : t 0
.
que caracteriza completamente a distribuicao exponencial. > 0 e o
parametro da distribuicao.
Vale o reverso, isto e, se T tem distribuicao exponencial, temos
P(T > t+s) = exp[(t+s)] = exp[t]. exp[s] = P(T > t).P(T > s)
e T tem falta de memoria e provamos o teorema
Exemplo 6.19. Uma industria fabrica lampadas especiais que cam
continuamente em operac ao. Caso a lampada dure menos do que 50
horas oferece a seus clientes a garantia de reposi cao. O tempo de vida
util dessas l ampadas e modelado atraves da distribuic ao exponencial
com par ametro
1
8.000
. Portanto, a propor cao de lampadas trocadas por
garantia e
P(T 50) =
_

0
1
8.000
exp[
t
8.000
]dt = 1
1
8.000
exp[
50
8.000
] = 0, 006.
Voce acha razoavel substituir uma l ampada que j a durou 5.000 horas?
Como sabemos que a distribui cao exponencial tem a propriedade da
75
falta de mem oria, a resposta e n ao pois uma l ampada usada e to boa
quanto uma nova. Analiticamente podemos escrever
P(T > t + 5.000[T > 5.000) =
P(T > t + 5.000, T > 5.000)
P(T > 5.000)
=
exp[
1
8.000
(t + 5.000)]
exp[
1
8.000
5.000]
= exp[
1
8.000
t] = P(T > t).
Distribuicao de Pareto.
Denicao 6.20. A funcao de distribui cao de uma vari avel aleatoria
X, com func ao de distribui cao de Pareto, F(x) e denida por:
F(x) = 1 (

x +
)

x > 0,
Onde > 0 e o parametro da forma e > 0 e o parametro de escala
de sua fun cao densidade de probabilidade
f(x) =

(x +)

, x > 0.
Portanto a esperanca de X e
E[X] =
_

0
xf(x)dx =
_

0
(
_
x
0
dy)f(x)dx =
_

0
(
_

y
f(x)dx)dy =
_

0
P(X > y)dy =
_

0

(y +)

dy =

1
y

dy =

1
, se > 1.
Em geral vale
E[X
k
] =

k
k!
( 1).( 2)...( k)
, para > k.
Concluimos que a variancia da distribuicao de Pareto e

2
= V ar(X) = E[X
2
] E[X]
2
=
2.
2
( 1).( 2)
(

1
)
2
.
O p-esimo percentil de X, x
p
, e denido pela relacao
F(x
p
) = 1 (

x
p
+
)

= p
que tem solucao
x
p
= .((1 p)

1).
76
Exemplo 6.21. A perda aleatoria, X, com seguro e modelada por
uma distribuic ao de Pareto com media = 100.000 e variancia igual
a 3.(10)
10
unidades monetarias. Os parametros da distribuic ao podem
ser calculados equacionando

1
= 100.000 e
2.
2
(1).(2)
(100.000)
2
=
3.(10)
10
com soluc ao = 3 e = 200.000.
O atuario pode estimar a perda mediana calculando
x
0,5
= 200.000((0, 5)

1
3
1)=52.000
e tambem se prevenir contra a pior perda denida por
E[X] + 3. = 100.000 + 3.
_
3.(10)
10
= 619.615, 24
com probabilidade P(X > 619.616, 24) = (
200.000
619.615,24+200.000
)
3
= 0, 0145.
Se X e uma variavel aleatoria com distribuicao de Pareto, a variavel
aleatoria Y = X+ assume valores y > e tem funcao de distribuicao
P(Y y) = P(X + y) = P(X y ) = 1 (

y
)

y > .
Neste caso, nao e considerado um parametro, pois qualquer troca
do valor de altera o dominio da distribuicao denida em [, ) e y
dene a distribuicao de Pareto uniparametrica.
Exemplo 6.22. O tempo de vida de um sistema eletr onico depois de
submetido a um processo de burn-in e modelado por uma distribuicao
de Pareto denida no intervalo [1, ) com media = 5.
Portanto o parametro e denido pela equa cao
E[Y ] =
_

1
y

y
+1
dy =

1
[

1
=

1
,
resultando o valor = 1, 2.
A probabilidade que o sistema sobreviva a 7 unidades de tempo e:
P(Y > 7) =
_

7
1, 2
y
2,2
dy = 0, 1.
Distribuicao de Weibull.
Denicao 6.23. Uma vari avel aleat oria T com func ao de distribuic ao
F(t)
F(t) = 1 exp[(.t)

t > 0
onde > 0 e o par ametro da forma e > 0 e o par ametro de escala,
tem func ao densidade de probabilidade
f(t) =
dF(t)
dt
= x
1
exp[(.t)

], t > 0
77
e e denominada distribuic ao de Weibull.
O momento de ordem k, de T pode ser calculado:
E[T
k
] =
_

0
t
k
f(t)dt =
_

0
k(
_
t
0
s
k1
ds)f(t)dt =
k
_

0
P(T > s)s
k1
ds = k
_

0
exp[(.s)

s
k1
ds.
Substituindo z = (.s)

, temos s =
z
1

e ds =
1
.
.z
1

1
.dz.
Portanto
E[T
k
] =
1

k
k

(
k

) =
1

k
(
k

+ 1)
onde a funcao Gama e denida como anteriormente: (t) =
_

0
z
t1
exp[z], t >
0.
Consequentemente temos que
E[T] =
1

(
1

+ 1)
E[T
2
] =
1

2
(
2

+ 1)
e

2
=
1

2
.
[2(
2

)
1

((
1

))
2
].
Exemplo 6.24. Se T e uma variavel aleatoria representando uma
perda, com func ao de distribuicao
F(t) = 1 exp[(0, 02.t)
2
] t > 0,
calcule a perda media, a vari ancia da perda e a probabilidade de que
a perda n ao ultrapasse um desvio padrao da media.
A perda media e dada por
= E[T] =
1
0, 02
(
1
2
+ 1) = 50.

2
= 44, 3,
E[T
2
] =
1
0, 02)
2
(
2
2
+ 1) = 2500
e

2
= E[T
2
(E[T])
2
= 2500 (44, 3)
2
= 537, 5
com desvio padr ao = 23, 2.
A probabilidade de que T n ao ultrapasse + = 67, 5 e F(67, 5) =
1 exp[(0, 02.67, 5)
2
= 0, 84.
Distribuicao Normal.
78
Denicao 6.25. Dizemos que uma vari avel aleat oria X tem distribuicao
normal com par ametros e
2
, e denotamos X N(,
2
), se X tem
func ao densidade de probabilidade
f(x) =
1

2
exp[
(x )
2
2
2
], < x < , > 0, < < .
A expressao de f(x) parece complexa mas tem um graco suave em
forma de um sino.
Figura 7.1 - Graco da curva normal
O parametro e de escala e o graco de normais com mesmo e
diferentes sao como segue:
Figura .2 - Gracos de curvas normais
79
O parametro
2
e o da forma da densidade e quanto maior o
a densidade e mais dispersa em torno de e existe chances maiores
de encontrar valores , da variavel, distantes de . S e pequeno, a
densidade tem forma mais concentrada em torno de e a chance de
observarmos valores proximos de aumenta.
Na realidade estamos denindo uma classe de distribuicoes normais
pois a cada n umero real e n umero real positivo , temos uma dis-
tribuicao normal. Em particular a distribuicao normal com = 0 e

2
= 1, denominada de distribuicao normal padrao e denotada por
Z N(0, 1) tem funcao densidade de probabilidade
f(x) =
1

2
exp[
x
2
2
], < x < .
Para ter uma nocao da complexidade analtica de tal expressao prove-
mos que I =
_

2
exp[
x2
2
]dx = 1.
Para proceder com a prova notemos que I > 0 e que I = 1 se e
somente se, I
2
= 1. Contudo
I
2
= (
_

2
exp[
x
2
2
]dx).(
_

2
exp[
y
2
2
]dy) =
_

1
2
exp[
1
2
(x
2
+y
2
)]dxdy.
Neste ponto consideramos uma transformacao para coordenadas po-
lares atraves das equacoes
x = sin e y = cos , 0 2, 0 < < ,
produzindo
I
2
=
1
2
_
2
0
_

0
exp[
1
2

2
]dd =
1
2
_
2
0
_

0
exp[y]dyd =
1
2
_
2
0
d = 1.
A funcao de distribuicao dessa variavel, Z N(0, 1), e dada por
F(z) =
_
z

2
exp[
x2
2
]dx
mas o calculo analtico para tal expressao e mais complexo do que os
calculos anteriores e devemos utilizar tecnicas numericas. Na pratica,
simplicamos com o uso das tabelas estatsticas, apresentadas no nal
do livro.
80
A tabela fornece a area sob a funcao densidade de probabilidade entre
o valor zero (0) e um valor real z a sua direita. O valor z, ate sua
primeira casa decimal e encontrado na primeira coluna e sua segunda
casa decimal na primeira linha da tabela. O cruzamento dessa linha e
coluna, no interior da tabela, nos da a probabilidade P(0 < Z z).
Procedendo dessa maneira vericamos, por exemplo:
Figura 7.3 - Calculo de probabilidades
P(0 < Z 1, 64) = 0, 45;
P(0 < Z 1, 96) = 0, 475.
Desde que a funcao densidade de probabilidade da distribuicao nor-
mal padrao e perfeitamente simetrica em relacao a zero, concluimos
que;
P(Z 1, 64) = P(Z 1, 64) = 0, 5 P(0 < Z 1, 64) = 0, 05;
P(1, 96 Z 1, 96) = 2.P(0 < Z 1, 96) = 0, 95;
P(1, 64 Z 1.96) = P(1, 64 Z 0) +P(0 < Z 1, 96) =
P(0 < Z 1, 64) +P(0 < Z 1, 96) = 0, 975.
Reversamente, podemos encontrar o valor de z, tal que a area (prob-
abilidade) `a sua esquerda, ou direita seja xada. Consideremos encon-
trar z, tal que P(Z z) = 0, 8. Observe que este valor de z deve ser
81
positivo, caso contrario, a area `a sua esquerda seria menor ou igual a
0, 5. Como z e positivo podemos escrever
P(Z z) = P(Z 0) +P(0 < Z z) = 0, 5 +P(0 < Z z) = 0, 8,
que implica P(0 < Z z) = 0, 3. Observando o valor mais proximo de
0, 3 no corpo da tabela, percorremos sua linha e sua coluna, no sentido
contrario do que vinhamos fazendo, No caso obtemos z = 0, 85.
Para encontrar o valor de z com P(Z z) < 0, 5 podemos proceder
com os mesmos argumentos, por exemplo:
Se P(Z z) = 0, 05, temos que z e negativo e que P(Z z) =
0, 05. Portanto P(0 < Z z) = 0, 45 e concluimos que z = 1, 64 e
z = 1, 64.
Conhecemos que a distribuicao de uma variavel aleatoria e comple-
tamente determinada pela sua funcao geradora de momentos, M
Z
(t),
quando esta funcao existir. A funcao geradora de momentos de Z e
M
Z
(t) = E[exp[tZ]] =
_

2
exp[tz] exp[
z
2
2
]dz =
exp[
t
2
2
]
_

2
exp[
(z t)
2
2
]dz = exp[
t
2
2
].
Podemos calcular a media e a variacia de Z atraves da sua funcao
geradora de momentos. A primeira derivada de M
Z
(t) e igual a M
(1)
Z
(t) =
t. exp[
t
2
2
] com = E[Z] = M
(1)
Z
(0) = 0.
A segunda derivada de M
Z
(t) e M
(2)
Z
(t) = exp[
t
2
2
] + t. exp[
t
2
2
] que
no ponto zero vale E[Z
2
] = M
(2)
Z
(0) = 1. Portanto
2
= var(Z) =
E[Z
2
]
2
= 1.
Se consideramos a transformacao linear da variavel aleatoria Z, X =
.Z + onde e um n umero real e , um n umero real positivo, temos
que a funcao geradora de momentos de X e
M
X
(t) = E[exp[tX] = E[exp[t.(.Z +)] = E[exp[t..Z] exp[t.]] =
exp[t.]M
Z
(t.) = exp[t. +
t
2

2
2
].
Acontece que tal funcao geradora de momentos caracteriza completa-
mente a distribuicao normal com media e variancia
2
. Calculando
as derivadas da funcao geradora de momentos no ponto zero, obtemos
E[X] = M
(1)
X
(0) = e E[X
2
] = M
(2)
X
(0) =
2
+
2
e concluimos que
os parametros da distribuicao Normal, denotada por X N(,
2
) sao
sua media e variancia.
82
Inversamente, podemos considerar a transformacao reversa, Z =
X

=
X

e temos
M
Z
(t) = E[exp[t.Z]] = E[exp[t.(
X

)]] = exp[t.

)]].M
X
(
t

) = exp[
t
2
2
].
Ccncluimos que existe uma equivalencia entre a normal de media
e variancia
2
, N(,
2
), e a normal padrao, N(0, 1), atraves das
citadas transformacoes e utilizaremos este resultado para calculos en-
volvendo a funcao de distribuicao de X N(,
2
) atraves da funcao
de distribuicao da normal padrao Z N(0, 1).
Assim, se X N(,
2
), a sua funcao de distribuicao pode ser cal-
culada como
F
X
(x) = P(X x) = P(
X

) = P(Z
x

) = F
Z
(
x

).
Exemplo 6.26. O custo dos sinistros de certo tipo de ap olice tem dis-
tribuic ao normal com media de R$1.800, 00 e desvio padrao R$400, 00.
A probabilidade de que um sinistro escolhido aleat oriamente custe mais
do que R$1.500, 00 e
P(X > 1500) = P(
X

>
1500 1800
400
) =
P(Z > 0, 75) = P(Z 0, 75) = 0, 5+P(0 < Z 0, 75) = 0, 5+0, 27337 = 0, 77.
A probabilidade de que o custo esteja entre R$1.500, 00 e R$2.000, 00
e
P(1500 < X 2000) = P(
1500 1800
400
<
X


2000 1800
400
) =
P(0, 75 < Z 0, 5) = P(0, 75 < Z 0) +P(0 < Z 0, 5) =
P(0 < Z 0, 75) + 0, 19146 = 0, 27337 + 0, 19146 = 0, 46.
A probabilidade de que o custo esteja a 1, 96 desvio padr ao de sua
media e
P([X 1800[ 1, 96.400) = P(1, 96.400 X 1800 1, 96.400) =
P(1, 96
X 1800
400
1, 96) = P(1, 96 Z 1, 96) = 0, 95.
Caso a Cia de Seguros deseje estabelecer uma franquia de forma que
10% das ocorrencias n ao utilizem o seguro, devemos procurar o custo
x tal que P(X x) = 0, 1).
Padronizando X, a equa cao e equivalente a
P(
X


x 1800
400
) = 0, 1 P(Z
x 1800
400
) = 0, 1
83
P(Z
x 1800
400
) = 0, 1 P(0 < Z
1800 x
400
) =
0, 4
1800 x
400
= 1, 64 x = 1.144,
isto e, a franquia deve ser de R$1.144, 00.
Observacao 6.27. Aproximacao da distribuicao binomial pela
distribuicao normal.
Consideramos no exemplo 1.8 do Captulo anterior o c alculo da prob-
abilidade de que entre 10.000 segurados, 15 solicitem benefcios dev-
ido ` a ocorrencias de sinistros. A probabilidade da ocorrencia de tais
sinistros foi estipulada como p = 0, 001. Se Y e a vari avel aleatoria
denida pelo n umero de segurados que reclamam os benefcios, temos
que Y tem distribuicao binomial de parametros 10.000 e 0, 001 (Y
B(10.000, 0, 001)).
A probabilidade do evento Y = 15 e
P(Y = 15) =
_
10.000
15
_
0, 001
15
0, 999
9985
,
de calculo complicado. Naquele exemplo aproximamos tal probabili-
dade pela probabilidade da distribuicao de Poisson com mesma media
da distribuic ao binomial. Neste Captulo consideramos a aproximac ao
da distribuic ao binomial pela distribui cao normal com mesma media e
vari ancia da binomial.
Para um melhor entendimento consideremos a distribuic ao binomial
de par ametros n = 10 e p = 0, 5. A func ao de probabilidade da vari avel
aleat oria Y B(10; 0, 5) e
y 0 1 2 3 4 5
P(Y = y) 0, 001 0, 01 0, 044 0, 117 0, 205 0, 246
y 6 7 8 9 10
P(Y = y) 0, 205 0, 117 0, 044 0, 01 0, 001
com representac ao graca:
Figura 7.4- Aproximac ao da binomial pela normal
84
Uma primeira aproxima cao gr aca de uma vari avel discreta por uma
vari avel contnua e atraves do histograma, o gr aco de ret angulos
contguos cujas areas somam 1. Se para cada valor da variavel discreta
construirmos um ret angulo de base 1 e altura igual ` a sua probabilidade
teremos a soma dessas areas igual a 1. A base do ret angulo correspon-
dente ao valor x
i
, da variavel, e denida por x
i
0, 5 e x
i
+ 0, 5, como
na gura acima.
Seja X a vari avel aleatoria que corresponde ao histograma. No caso
em que n e grande a variavel X converge para uma vari avel normal com
media = np e
2
= n.p.(1 p), a media e variancia da distribuicao
B(n, p).
No exemplo em que n = 10 e p = 0, 5 temos P(Y = 5) = 0, 246,
P(Y 3) = 0, 172 e P(2 Y < 6) = 0, 612.
Se X N(5; 2, 5),
P(4, 5 X 5, 5) = P(
4, 5 5
1, 58

X 5
1, 58

5, 5 5
1, 58
) =
P(0, 32 Z 0, 32) = 2.P(0 Z 0, 32) = 2.0, 12552 = 0, 251,
uma aproximac ao por menos de 5 milesimos.
P(X 3, 5) = P(
X 5
1, 58

3, 5 5
1, 58
) = P(Z 0, 95) =
P(Z > 0, 95) = 0, 5 P(0 Z 0, 95) = 0, 5 0, 32894 = 0, 171.
P(1, 5 X 5, 5) = P(
1, 5 5
1, 58

X 5
1, 58

5, 5 5
1, 58
) =
P(2, 21 Z 0, 32) = P(0 Z 2, 21)+
P(0 Z 0, 32) = 0, 48645 + 0, 12552 = 0, 61.
A aproximacao colocada tem justicativa rigorosa quando demon-
stramos o Teorema do Limite Central que aproxima soma de vari aveis
aleat oria independentes e identicamente distribuidas por uma distribuic ao
normal. Observe que uma variavel binomial pode ser interpretada como
soma de Bernoulli que s ao independentes e identicamente distribuidas.
Portanto, considerando o exemplo 8 do Captulo anterior, poderamos
aproximar Y B(10.000; 0, 001) pela distribuic ao normal X N(10; 9, 99)
e
P(Y = 15) P(14, 5 X 15, 5) = P(
14, 5 10
3, 16

X 10
3, 16

15, 5 10
3, 16
) =
P(1, 4 Z 1, 74) = P(Z 1, 74)P(Z 1, 4) = 0, 459070, 41924 = 0, 0398.
85
O resultado da aproximac ao pela distribui cao de Poisson foi 0, 0347.
Teorema 6.28. Se Z e uma variavel aleatoria contnua com distribuicao
normal com media = 0 e variancia
2
= 1, a variavel aleatoria Y ,
resultado da transformacao Y = Z
2
, tem funcao densidade de proba-
bilidade
f(y) =
1

y
exp[
y
2
], y > 0,
denominada de distribuicao qui-quadrado com um grau de liberdade.
Prova Evidentemente, os valores de Y sao positivos e a funcao de
distribuicao de Y e dada por
P(Y y) = P(Z
2
y) = P(

y Z

y) =
_

y

y
1

2
exp
[

x
2
2
]dx = 2.
_

y
0
1

2
exp
[

x
2
2
]dx.
Portanto a funcao densidade de probabilidade de Y , f(y) =
dF(y)
dy
e
f(y) =
1

y
exp[
y
2
], y > 0,
Denicao 6.29. A func ao de distribui cao de uma vari avel aleat oria Y
com func ao densidade de probabilidade
f(y) =
1
(
k
2
)
(
1
2
)
k
2
y
k
2
1
exp[
y
2
], y > 0,
e denominada de distribuic ao qui-quadrado com k graus de liberdade,
tem media = k e vari ancia
2
= 2.k.
Observacao 6.30. Transformacoes de variaveis aleat orias
O Teorema 6.28 pode ser colocado como um caso particular do Teo-
rema que segue:
Teorema 6.31. Suponha que X e uma variavel aleatoria do tipo contnuo
com funcao de densidade de probabilidade f
X
(x), com domnio '
X
=
x : f
X
(x) > 0. Assuma que:
a) y = g(x) dene uma transformacao um a um e sobrejetora de '
X
em '
Y
= y : g(y) > 0.
b) A derivada de x = g
1
(y), com respeito a y e contnua em '
Y
.
86
Entao Y = g(X) e uma variavel aleatoria do tipo contnuo com
funcao de densidade de probabilidade
f
Y
(y) = [
dg
1
(y)
dy
[.f
X
(g
1
(y)), y '
Y
.
Prova
Se g(x) e crescente, g
1
(y) e crescente. Entao
F
Y
(y) = P(Y y) = P(g(X) y) = P(X g
1
(y)) = F
X
(g
1
(y))
e portanto
f
Y
(y) =
dF
X
(g
1
(y))
dy
= [
dg
1
(y)
dy
[.f
X
(g
1
(y)).
No caso em que g(x) e decrescente, g
1
(y) e decrescente e
F
Y
(y) = P(Y y) = P(g(X) y) = P(X g
1
(y)) = 1F
X
(g
1
(y))
e
f
Y
(y) =
dF
X
(g
1
(y))
dy
= [
dg
1
(y)
dy
[.f
X
(g
1
(y)).
A restric ao de que y = g(x) seja bijetiva no domnio '
X
e restri-
tiva. Se podemos particionar '
X
em '
1
X
, '
2
X
, ..., '
m
X
de maneira que
em cada '
X
i, g(x) e bijetora, podemos aplicar o Teorema em cada '
X
i
e concluir que
f
Y
(y) =
m

i=1
[
dg
i
1
(y)
dy
[.f
X
(g
i
1
(y)), y '
Y
.
A func ao Gama, denotada por que aparece na denicao acima e
denida por
(t) =
_

0
x
t1
exp[x]dx, t > 0.
Por integracao por partes pode-se provar que (t + 1) = t(t). Se
t = n, um n umero natural, temos (n + 1) = n!. Em particular
(n +
1
2
) =
1.3.5....(2n1)
2
n

2 e (
1
2
) = 2.(
3
2
) =

.
87
Teorema 6.32. Se X e uma variavel aleatoria contnua com dis-
tribuicao normal com media e variancia
2
, a variavel aleatoria Y ,
resultado da transformacao Y = exp[X], tem funcao densidade de prob-
abilidade
f(y) =
1
y..

2
exp[
()
2
2
2
], y > 0.
denominada de distribuicao log-normal.
Prova

E evidente que os valores y que Y assume sao positivos. A
funcao de distribuicao de Y e
F(y) = P(Y y) = P(exp[X] y) = P(X ln y) =
_
ln y

2
exp[
(x )
2
2
2
]dx.
Portanto, a funcao densidade de probabilidade de Y e
f(y) =
dF(y)
dy
=
1
y..

2
exp[
()
2
2
2
].
Denicao 6.33. A func ao de distribui cao de uma vari avel aleat oria Y
com func ao densidade de probabilidade
f(y) =
1
y..

2
exp[
()
2
2
2
], y > 0,
e denominada de distribuicao Lognormal com parametros e
2
.
Recordemos que a fun cao geradora de momentos da vari avel aleat oria
X N(,
2
) e
M
X
(t) = E[exp[t.X]] = exp[t. +

2
t
2
2
].
Portanto
E[Y ] = E[exp[X]] = M
X
(1) = exp[ +

2
2
],
E[Y
2
] = E[exp[2.X]] = exp[2. + 2.
2
]
e

2
Y
= exp[2. + 2.
2
] exp[2. +
2
].
Exemplo 6.34. A taxa de crescimento de uma populac ao e uma vari avel
aleat oria Y com distribuicao normal com media 0, 03 e vari ancia 0,0001.
O crescimento da popula cao, com tamanho inicial de 100.000 indivduos
no perodo de um ano e modelado por Y = 100.000 exp[X]. Reconhece-
mos que a variavel
Y
100.000
tem distribui cao lognormal com os mesmos
88
par ametros de X e portanto, no perodo de um ano esperamos uma
populac ao de
E[Y ] = 100.000.E[exp[X]] = 100.000 exp[0, 03 +
0, 0001
2
] = 103.051.
89
7. CAP

ITULO 7
Distribuicoes conjuntas.
Neste captulo atribuimos a um ponto amostral valores de varias
vari aveis aleatorias e analisamos a sua distribuic ao conjunta. Por prati-
cidade desenvolvemos a teoria para vetores de variaveis aleatorias bidi-
mensionais mas os resultados estendem-se para o caso multidimensional
de dimensao nita.
7.1. Distribuic oes conjuntas discretas. Comecamos com um ex-
emplo:
Exemplo 7.1. Um investidor simula uma sequencia de sucessos, ou
fracassos, anuais de suas aplica coes por um perodo de tres anos. Para
isso sup oe que a probabilidade de sucesso em determinado ano e p,
0 < p < 1, independente dos resultados nos outros anos. Considera
tres variaveis de interesse:
A vari avel aleat oria X, que indica se houve sucesso ou fracasso no
primeiro ano. O sucesso (S) indicado pelo algarismo 1 e o fracasso (F)
pelo algarismo 0;
a vari avel aleat oria Y que indica o n umero de sucessos nos tres anos
e a variavel aleat oria
Z, indicando o n umero de mudancas ( SF ou FS) que ocorreram
durante os tres anos.
A conguracao dos resultados possveis com as respectivas probabili-
dades e a distribuicao conjunta tridimensional que apresenta os valores
(x, y, z) do vetor aleatorio (X, Y, Z) com suas respectivas probabili-
dades
P(X = x, Y = y, Z = z) = P(X = x Y = y Z = z),
por exemplo P(X = 1, Y = 2, Z = 2) = p
2
(1 p).
Tabela 7.1- Distribuic ao tridimensional de (X, Y, Z)
90
Realiza

c ao (x, y, z) P(X = x, Y = y, Z = z)
(S, S, S) (1, 3, 0) p
3
(S, S, F) (1, 2, 1) p
2
(1 p)
(S, F, S) (1, 2, 2) p
2
(1 p)
(F, S, S) (0, 2, 1) p
2
(1 p)
(S, F, F) (1, 1, 1) p(1 p)
2
(F, S, F) (0, 1, 2) p(1 p)
2
(F, F, S) (0, 1, 1) p(1 p)
2
(F, F, F) (0, 0, 0) (1 p)
3
As distribui coes unidimensionais das variaveis X, Y e Z s ao obtidas
xando o valor da variavel de interesse e somando sobre os valores das
outras vari aveis.Analiticamente temos
P(X = x) =

z
P(X = x, Y = y, Z = z).
Por exemplo
P(X = 1) = P(X = 1, Y = 3, Z = 0) +P(X = 1, Y = 2, Z = 1)+
P(X = 1, Y = 2, Z = 2) +P(X = 1, Y = 1, Z = 1) =
p
3
+2p
2
(1p)+p(1p)
2
= p[p
2
+2p(1p)+(1p)
2
] = p[p+(1p)]
2
= p.
A probabilidade do evento complementar e P(X = 0) = 1 p.
O resultado era esperado desde que X e uma variavel aleat oria de
Bernoulli que tem media E[X] = p e vari ancia V ar(X) = p(1 p).
Obtemos a distribuic ao da variavel Y de maneira semelhante e a sua
func ao de probabilidade e
y 0 1 2 3
P(Y = y) (1 p)
3
3p(1 p)
2
3p
2
(1 p) p
3
Resumindo, P(Y = k) =
_
3
k
_
p
k
(1 p)
3k
para k 0, 1, 2, 3. Isto
e, o n umero de sucessos em 3 ensaios de Bernoulli, independentes e
identicamente distribuidos, com probabilidade de sucesso igual a p,
tem distribuic ao binomial com media E[Y ] = 3p e vari ancia V ar(Y ) =
3p(1 p).
A vari avel Z assume os valores 0, 1, 2 com probabilidades
P(Z = 0) = p
3
+ (1 p)
3
;
P(z = 1) = 2p
2
(1 p) + 2p(1 p)
2
= 2p(1 p);
P(Z = 2) = p
2
(1 p) +p(1 p)
2
.
A sua esperanca e
E[Z] = 2p(1 p) + 2p
2
(1 p) + 2p(1 p)
2
= 4p(1 p)
91
e sua variancia
V ar(Z) = E[Z
2
]E[Z]
2
= 6p(1p)16p
2
(1p)
2
= 6p22p
2
+32p
3
16p
4
.
A distribuic ao conjunta de (X, Z) pode ser representada por uma
tabela de dupla entrada
Tabela 7.2- Distribuic ao bidimensional de (X, Z)
X, Z 0 1 2 total
0 (1 p)
3
p(1 p) p(1 p)
2
1-p
1 p
3
p(1 p) p
2
(1 p) p
total p
3
+ (1 p)
3
2p(1 p) pr(1 p) +p(1 p)
2
1
No seu interior a tabela nos fornece a distribuic ao conjunta das
vari aveis (X, Z), isto e, os valores
P(X = x, Z = z) = P(X = x Z = z)
para todos os valores de X e de Z representados por x e z respective-
mente. As suas margens fornecem as distribuic oes (marginais) de X e
de Z.
Em uma primeira simula cao o investidor imaginou o menos pior, ou
seja, considerou a probabilidade de sucesso igual a
1
2
. A tabela torna-se
Tabela 7.3- Distribuic ao bidimensional de (X, Z), p =
1
2
X, Z 0 1 2 total
0
1
8
1
4
1
8
1
2
1
1
8
1
4
1
8
1
2
total
1
4
1
2
1
4
1
Em seguida, para um cen ario de sucesso na carreira considerou p =
2
3
,
projetando
Tabela 7.4- Distribuic ao bidimensional de (X, Z), p =
2
3
X, Z 0 1 2 total
0
1
27
6
27
2
27
1
3
1
8
27
6
27
4
27
2
3
total
3
9
4
9
2
9
1
Quando estudamos a distribui cao conjunta de vari aveis aleatorias
desejamos conhecer se, de alguma maneira, uma vari avel esta associ-
ada ` as outras. Um conceito essencial para uma analise neste sentido
e o de distribuicao condicional fundamentada no conceito de eventos
condicionais: Se A e B s ao eventos com P(B) > 0, a probabilidade
condicional do evento A dado a ocorrencia de B e P(A[B) =
P(AB)
P(B)
.
92
Denicao 7.2. Sejam X e Y vari aveis aleatorias discretas que as-
sumem valores x
1
, ..., x
n
e y
1
, ..., y
m
respectivamente. Se P(X = x
i
) >
0, a probabilidade condicional de Y = y
j
dado X = x
i
, denotada
por P(Y = y
j
[X = x
i
) e denida por
P(Y = y
j
[X = x
i
) =
P(X = x
i
, Y = y
j
)
P(X = x
i
)
, 1 j m.
Podemos observar que para x
i
xado com P(X = x
i
) > 0, os pares
(y
j
, P(Y = y
j
[X = x
i
)) 1 j m caracterizam a distribuic ao de
probabilidade da vari avel aleat oria condicional (Y [X = x
i
). Observe
que
m

j=1
P(Y = y
j
[X = x
i
) =
m

j=1
P(X = x
i
, Y = y
j
)
P(X = x
i
)
=
1
P(X = x
i
)
m

j=1
P(X = x
i
, Y = y
j
) =
P(X = x
i
)
P(X = x
i
)
= 1.
Na suposic ao de que p =
2
3
, a probabilidade condicional de termos
uma unica mudan ca, condicionada que se obteve sucesso no primeiro
ano e:
P(Z = 1[X = 1) =
P(X=1,Z=1)
P(X=1)
=
6
27
2
3
=
6
18
.
A distribuic ao condicional da variavel Z condicionada ao valor da
vari avel X = 1 tem func ao de probabilidade:
Z[X = 1 0 1 2
P(Z = z[X = 1)
8
18
6
18
4
18
Observe que

2
k=0
P(Z = k[X = 1) = 1. A esperanca da vari avel
(Z[X = 1) e
E[Z[X = 1] =
6
18
+
8
18
=
14
18
e a variancia da vari avel (Z[X = 1) e
V ar(Z[X = 1) =
22
18

196
324
=
200
324
,
pois E[Z
2
[X = 1] =
6
18
+
16
18
=
22
18
.
Com argumento analogo concluimos que a distribui cao condicional
da vari avel Z condicionada ao valor da vari avel X = 0 tem func ao de
probabilidade:
Z[X = 0 0 1 2
P(Z = z[X = 0)
1
9
6
9
2
9
93
com
E[Z[X = 0] =
10
9
, E[Z
2
[X = 0] =
14
9
e V ar(Z[X = 0) =
56
81
.
Observe que uma vari avel Y quando condicionada aos valores de uma
vari avel X e fun cao de tais valores e como func ao de X e uma variavel
aleat oria. Esta vari avel aleat oria denotada por (X) = E[Y [X] assume
valores E[Y [X = x] com respectivas probabilidades P(X=x).
E[Y [X] E[Y [X = x
1
] ... E[Y [X = x
n
]
P(E[Y [X] = E[Y [X = x]) P(X = x
1
) ... P(X = x
n
)
Portanto ao calcular EE[Y [X] temos
EE[Y [X] =
m

j=1
E[Y [X = x
j
]P(X = x
j
) =
m

j=1
[
n

i=1
y
i
P(Y = y
i
[X = x
j
)]P(X = x
j
)+
m

j=1
[
n

i=1
y
i
P(Y = y
i
, X = x
j
)
P(X = x
j
)
]P(X = x
j
) =
m

j=1
n

i=1
y
i
P(Y = y
i
, X = x
j
) =
n

i=1
y
i
P(Y = y
i
) = E[Y ].
Pode-se provar tambem que
V ar(X) = E[V ar(X[Y )] +V ar(E[Y [X]).
Podemos utilizar os c alculos anteriores para, no caso em que p =
2
3
,
exemplicarmos:
EE[Z[X] = E[Z[X = 0]P(X = 0) +E[Z[X = 1]P(X = 1) =
10
9
1
3
+
14
18
2
3
=
20 + 28
54
=
8
9
= E[Z].
Um t opico importante na analise das distribui coes conjuntas de vari aveis
aleat orias e o estudo da independencia das mesmas.
Denicao 7.3. Duas vari aveis aleat orias X e Y assumindo valores
nos conjuntos x
1
, ..., x
n
e y
1
, ..., y
m
, respectivamente, sao indepen-
dentes se, e somente se,
P(X = x
i
, Y = y
j
) = P(X = x
i
)P(Y = y
j
)
para quaiquer possiveis pares de valores (x
i
, y
j
), 1 i n 1 j m.
94
As vari aveis aleat orias X e Z acima, quando consideramos p =
1
2
,
tem distribuic ao conjunta representada por
Tabela 7.5- Distribuic ao bidimensional de (X, Z), p =
1
2
X, Z 0 1 2 total
0
1
8
1
4
1
8
1
2
1
1
8
1
4
1
8
1
2
total
1
4
1
2
1
4
1
E podemos notar que a probabilidade conjunta e igual ao produto
de suas marginais para todos os valores possveis, por exemplo
P(X = 1, Z = 1) =
2
8
=
1
2
1
2
= P(X = 1)P(z = 1).
Portanto as vari aveis X e Z s ao independentes.
Se consideramos p =
2
3
temos
P(X = 1, Z = 1) =
6
27
,=
2
3
4
9
= P(X = 1)P(z = 1)
e podemos armar que, neste caso, X e Z n ao s ao independentes.
Podemos generalizar a denic ao de independencia para um vetor de
vari aveis aleat orias com dimens oes maiores. Vejamos o caso n = 3.
Denicao 7.4. As variaveis aleatorias X
1
, X
2
e X
3
s ao independentes
se, e s omente se
P(X
1
= x
1
, X
2
= x
2
, X
3
= x
3
) = P(X
1
= x
1
)P(X
2
= x
2
)P(X
3
= x
3
),
P(X
1
= x
1
, X
2
= x
2
) = P(X
1
= x
1
)P(X
2
= x
2
),
P(X
1
= x
1
, X
3
= x
3
) = P(X
1
= x
1
)P(X
3
= x
3
)
e
P(X
2
= x
2
, X
3
= x
3
) = P(X
2
= x
2
)P(X
3
= x
3
).
Operacao entre variaveis aleatorias
Operac oes com vari aveis aleatorias resultam em variaveis aleat orias.
Portanto, se X e Y s ao variaveis aleat orias, as operac oes

X, ln Y,
X + Y , X.Y s ao vari aveis aleat orias e como tais, cada uma tem sua
func ao de distribuicao, sua media, sua variancia e outras medidas.
A funcao de probabilidade induzida pela variavel aleat oria g(X, Y )
e caracterizada por:
P
g(X,Y )
(k) = P(g(X, Y ) = k) =

{(x
i
,y
j
):g(x
i
,y
j
)=k}
P(X = x
i
, Y = y
j
).
95
No que segue estudaremos algumas destas operac oes:
Se, no exemplo consideramos p =
2
3
, a distribuicao conjunta de
(X, Y ) e dada por
Tabela 7.6- Distribuic ao bidimensional de (X, Y ), p =
2
3
X, Y 0 1 2 3 total
0
1
27
4
27
4
27
0
1
3
1 0
2
27
8
27
8
27
2
3
total
1
27
6
27
12
27
8
27
1
A distribui cao da vari avel aleatoria X +Y assume os valores x +y,
para todos os valores x e y de X e Y , respectivamente. A fun cao de
probabilidade de X +Y e:
X +Y 0 1 2 3 4
P(X +Y = x +y)
1
27
4
27
6
27
8
27
8
27
de maneira que
E[X +Y ] =
8
3
=
2
3
+ 2 = E[X] +E[Y ].
Este resultado sempre e verdadeiro, isto e, a esperanca da soma de
variaveis aleat orias e a soma de suas esperan cas. O fato e uma con-
sequencia do teorema que segue que aceitamos sem prova. Sua prova
pode ser encontrada em literatura mais especializada.
Teorema 7.5. Sejam X e Y variaveis aleatorias discretas que as-
sumem valores x
1
, ..., x
n
e y
1
, ..., y
m
, respectivamente, com probabili-
dade conjunta P(X = x
i
, Y = y
j
). Se g(x, y) e uma funcao a valores
reais, limitada, entao
E[g(X, Y )] =
n

i=1
m

j=1
g(x
i
, y
j
)P(X = x
i
, Y = y
j
).
Utilizando o Teorema 7.5 podemos provar o corol ario:
Corolario 7.6. Sejam X e Y variaveis aleatorias discretas que as-
sumem valores x
1
, ..., x
n
e y
1
, ..., y
m
respectivamente, com probabilidade
conjunta P(X = x
i
, Y = y
j
). Entao
E[X +Y ] = E[X] +E[Y ].
Prova
96
Considerando, no Teorema 7.5, g(x, y) = x +y, obtemos
E[X +Y ] =
n

i=1
m

j=1
(x
i
+y
j
))P(X = x
i
, Y = y
j
) =
n

i=1
m

j=1
x
i
P(X = x
i
, Y = y
j
) +
n

i=1
m

j=1
y
j
P(X = x
i
, Y = y
j
) =
n

i=1
x
i
m

j=1
P(X = x
i
, Y = y
j
) +
m

j=1
y
j
n

i=1
P(X = x
i
, Y = y
j
) =
n

i=1
x
i
P(X = x
i
) +
m

j=1
y
j
P(Y = y
j
) = E[X] +E[Y ].
Se consideramos a transformac ao produto, isto e, a vari avel aleat oria
XY que assume valores xy para todos os pares (x, y) do vetor aleat orio
(X, Y ) com fun cao de probabilidade
XY 0 1 2 3
P(XY = xy)
9
27
2
27
8
27
8
27
concluimos que E[XY ] =
17
9
,=
2
3
.2 = E[X].E[Y ].
Contudo, se consideramos a distribuicao conjunta das variaveis aleat orias
independentes X e Z, quando p =
1
2
obtemos
Tabela 7.7- Distribuic ao bidimensional de (X, Z), p =
1
2
X, Z 0 1 2 total
0
1
8
1
4
1
8
1
2
1
1
8
1
4
1
8
1
2
total
1
4
1
2
1
4
1
e a fun cao de probabilidade de XZ e
y 0 1 2
P(XZ = xz)
5
8
2
8
1
8
com E[XZ] =
1
2
=
1
2
.1 = E[X].E[Z].
Utilizando o Teorema 7.5 podemos provar que esta propriedade e
verdadeira
97
Corolario 7.7. Sejam X e Y variaveis aleatorias discretas indepen-
dentes, que assumem valores x
1
, ..., x
n
e y
1
, ..., y
m
respectivamente, com
probabilidade conjunta P(X = x, Y = y) = P(X = x).P(Y = y).
Entao
E[X.Y ] = E[X].E[Y ].
Prova
Considerando, no Teorema 7.5, g(x, y) = x.y, obtemos
E[X.Y ] =
n

i=1
m

j=1
x
i
.y
j
P(X = x
i
, Y = y
j
) =
n

i=1
m

j=1
x
i
.y
j
P(X = x
i
).P(Y = y
j
)
n

i=1
x
i
P(X = x
i
).
m

j=1
y
j
P(Y = y
j
) = E[X].E[Y ].
Observamos que o corolario prova que a independencia de X e Y e
condic ao necess aria para que E[X.Y ] = E[X].E[Y ]. A condicao n ao e
suciente:
Exemplo 7.8. Se (X, Y ) tem distribui cao de probabilidade conjunta
Tabela 7.8- Distribuic ao conjunta de (X, Y )
X, Y 1 0 1 total
1 0
1
4
0
1
4
0
1
4
0
1
4
1
2
1 0
1
4
0
1
4
total
1
4
1
2
1
4
1
temos E[X.Y ] = 0 = 0.0 = E[X].E[Y ] mas P(X = 0, Y = 0) ,=
1
2
.
1
2
=
P(X = 0).P(Y = 0).
As propriedades nos corol arios 7.6 e 7.7 se estendem para um n umero
nito de vari aveis aleat orias. Se (X
1
, X
2
, ..., X
n
) e um vetor de variaveis
aleat orias, entao
E[X
1
+X
2
+... +X
n
] = E[X
1
] +E[X
2
] +... +E[X
n
].
Se, em adi cao as vari aveis aleatorias sao independentes
E[X
1
.X
2
.....X
n
] = E[X
1
].E[X
2
]....E[X
n
].
Um tipo de dependencia entre duas vari aveis X e Y muito importante
nas aplica coes e a associacao linear entre X e Y . Esta medida de
98
relac ao linear entre as vari aveis e denominada covariancia e denotada
por Cov(X, Y ).
Denicao 7.9. Sejam X e Y vari aveis aleatorias. A covari ancia entre
X e Y e denida pela esperan ca do produto dos desvios de X e Y em
relac ao `as suas respectivas medias, isto e
Cov(X, Y ) = E[(X E[X]).(Y E[Y ])].
Observacao 7.10. De maneira mais f acil podemos escrever
Cov(X, Y ) = E[(X E[X]).(Y E[Y ])] =
E[XY X.E[Y ] Y.E[X] +E[X].E[Y ]] = E[XY ] E[X].E[Y ].
Quando X e Y s ao variaveis aleatorias discretas que assumem valores
x
1
, ..., x
n
e y
1
, ..., y
n
respectivamente, podemos escrever utilizando o
Teorema 9.5 que
Cov(X, Y ) =
n

i=1
m

j=1
(x
i
E[X]).(y
j
E[Y ])P(X = x
i
, Y = y
j
).
Claramente, usando o Corol ario 7.7 , se X e Y s ao vari aveis aleat orias
independentes Cov(X, Y ) = 0. Observamos tambem que, como no
exemplo 7.8, a Cov(X, Y ) pode ser igual a zero quando X e Y s ao
vari aveis aleat orias dependentes.
Para o vetor aleatorio (X, Y ) com distribui cao conjunta
Tabela 7.9- Distribuic ao conjunta de (X, Y )
X, Y 0 1 2 3 total
0
1
27
4
27
4
27
0
1
3
1 0
2
27
8
27
8
27
2
3
total
1
27
6
27
12
27
8
27
1
temos que
Cov(X, Y ) = E[XY ] E[X].E[Y ] =
14
9

2
3
.2 =
14
9

12
9
=
2
9
.
No Corol ario 7.6 demonstramos que o valor esperado da soma de
vari aveis aleat orias e a soma dos valores esperados. O que podemos
dizer sobre a vari ancia da soma segue do corolario
99
Corolario 7.11. Sejam X e Y variaveis aleatorias , entao
V ar(X +Y ) = V ar(X) +V ar(Y ) + 2.Cov(X, Y ).
Se, em adicao, X e Y forem independentes temos V ar(X + Y ) =
V ar(X) +V ar(Y ).
Prova
A prova e imediata:
V ar(X+Y ) = E[(X+Y )E(X+Y )]
2
= E[(XE[X])+(Y E[Y ])]
2
=
E[(X E[X])
2
+E[(Y E[Y ])
2
+ 2.E[(X E[X]).(Y E[Y ])] =
V ar(X) +V AR(Y ) + 2.Cov(X, Y ).
Se X e Y sao independentes, Cov(X, Y ) = 0 e temos
V ar(X +Y ) = V ar(X) +V ar(Y ).
Exemplo 7.12. Para o vetor aleat orio (X, Y ) com distribuic ao con-
junta
Tabela 7.10- Distribuic ao conjunta de (X, Y )
X, Y 0 1 2 3 total
0
1
27
4
27
4
27
0
1
3
1 0
2
27
8
27
8
27
2
3
total
1
27
6
27
12
27
8
27
1
temos que
V ar(X) =
2
9
, V ar(Y ) =
2
3
e Cov(X, Y ) =
14
9

2
3
.2 =
2
9
. Portanto
V ar(X +Y ) =
2
9
+
6
9
+ 2.
2
9
=
12
9
.
Exemplo 7.13. A distribuic ao Binomial com parametros n e p, 0 <
p < 1 pode ser interpretada como o n umero de sucessos quando real-
izamos n ensaios de Bernoulli com probabilidade de sucesso p, inde-
pendentes e identicamente distribuidos. A funcao de probabilidade da
vari avel aleat oria, X, de Bernoulli e
X 0 1
P(X = x) 1 p p
100
Assim a media de X e E[X] = p e sua variancia V ar(X) = p.(1p).
Podemos interpretar a variavel aleat oria Binomial , Y , como a soma
Y =

n
i=1
X
i
de variaveis aleatorias, X
i
, 1 i n, de Bernoulli,
independentes e identicamente distribuidas a X.
Portanto
E[Y ] = E[
n

i=1
X
i
] =
n

i=1
E[X
i
] =
n

i=1
p = np
e
V ar(Y ) = V ar(
n

i=1
X
i
) =
n

i=1
V ar(X
i
) =
n

i=1
p, (1 p) = np(1 p).
Uma medida da rela cao linear entre duas vari aveis aleat orias X e Y
que n ao depende da unidade de medida e o coeciente de correla cao
linear, denotado por = (X, Y ), que e a covari ancia padronizada
pelos desvios padr oes de X e de Y :
Denicao 7.14. O coeciente de correlac ao linear entre as variaveis
aleat orias X e Y e denido por
= (X, Y ) =
Cov(X, Y )
DP(X).DP(Y )
.
Exemplo 7.15. O coeciente de correlac ao linear entre as vari aveis
aleat orias X e Y do exemplo e
=
Cov(X, Y )
DP(X).DP(Y )
=
2
9
_
2
9
.
6
9
=
2

8
= 0, 71.
Proposicao 7.16. Se existem n umeros reais a e b tais que Y = aX+b,
isto e, Y e uma funcao linear de X, entao [[ = 1.
Prova:
Se Y = aX + b temos E[Y ] = a.E[X] + b, V ar(Y ) = a
2
.V ar(X) e
E[XY ] = E[X.(aX +b)] = a.E[X
2
] +b.E[X] = a.V ar(X) +a.E[X]
2
+
b.E[X].
Portanto
Cov(X, Y ) = a.V ar(X) +a.E[X]
2
+b.E[X] a.V ar(X)
101
e
(X, Y ) =
a.V ar(X)
_
a
2
V ar(X)
2
=
a
[a[
.
Teorema 7.17. Se X e Y sao variaveis aleatorias com variancias
nitas, entao [[ 1. Em adicao, se vale a igualdade, existem n uemros
reais a e b tais que, com probabilidade 1, Y = a.X +b. Prova:
Consideramos a funcao f de ' em ' denida por
f(t) = E[(Y E[Y ]) +t.(X E[X])]
2

que e maior ou igual a zero. Desenvolvendo o quadrado perfeito temos


f(t) = V ar(X).t
2
+ 2.t.Cov(X, Y ) +V ar(Y ) 0.
A funcao f(t) e uma equa cao quadratica que e positiva se, e somente se,
o seu discriminante = 4.Cov(X, Y )
2
4.V ar(X).V ar(Y ) e menor
ou igual a zero. Portanto
Cov(X, Y )
2
V ar(X).V ar(Y )
1
2
1 [[ 1.
[[ = 1 se, e somente se, E[(Y E[Y ]) + t.(X E[X])] = 0, o
que implica, com probabilidade 1, (Y E[Y ]) +t.(X E[X]) = 0, isto
e, Y = t.X + (1 t).E[X]. Denindo a = t e b = (1 t).E[X] temos
Y = a.X +b.
7.2. Distribuic oes conjuntas contnuas. Como no caso das dis-
tribuic oes contnuas unidimensionais para denirmos a probabilidade
induzida pelo vetor aleatorio (X, Y ) : '
2
devemos considerar

2
= X, a classe de subconjuntos de '
2
obtida atraves das opera coes
de reuni ao, interseccao, complementar, em n umero nito ou innito de
subconjuntos na forma (, s] (, t], s, t '.
Denicao 7.18. Seja (, , P) um espaco de probabilidade e (X, Y )
uma aplicac ao de em '
2
. (X, Y ) e um vetor aleat orio contnuo se
X
1
((0, s]) Y
1
((0, t]) , s, t '. Denominamos ('
2
,
2
, P
(X,Y )
)
como o espa co de probabilidade induzido por (X, Y ).
102
A medida de probabilidade induzida pelo vetor aleat orio
(X, Y ) : '
2
.
e denida por
P
(X,Y )
(B
1
XB
2
) = P(X
1
(B
1
) Y
1
(B
2
)), B
1
XB
2

2
.
Observe que P
(X,Y )
esta bem denida e
P
(X,Y )
((, s] (, t]) = P(X
1
((, s]) Y
1
((, t])) =
P(w : X(w) (, t] w : X(w) (, t]) =
P(X s, Y t) = F
(X,Y )
(s, t)
e a func ao de distribuicao do vetor aleatorio (X, Y ) que , neste caso, e
uma func ao contnua.
Se a func ao de distribui cao de (X, Y ), for diferenci avel em cada
vari avel com

2
F
(X,Y )
(s,t)
st
= f
(X,Y )
(s, t), denimos
Denicao 7.19. Se (X, Y ) e uma vetor aleat orio contnuo com funcao
de distribuic ao
F
X,Y )
(s, t) =
_
s

_
t

f
(X,Y )
(x, y)dydx,
dizemos que f
(X,Y )
(s, t) e a func ao densidade de probabilidade de (X, Y )
e que e (absolutamente) contnua.
Observacao 7.20.

E evidente que a fun cao densidade de probabilidade
e positiva, isto e, f
(X,Y )
(s, t) 0, s, t em seu domnio de deni cao e
que
_

f
(X,Y )
(x, y)dydx = 1.
Tambem calculamos
P(a < X b, c < Y d) =
_
b
a
_
d
c
f
(X,Y )
(x, y)dydx
Exemplo 7.21. Considere que o tempo entre acidentes e o custo do
sinistro correspondente sao modelados pelo vetor aleatorio (X, Y ) com
func ao densidade de probabilidade conjunta
f(x, y) =
_
0 : x < 0
c. exp[(x +y)] : 0 x < y <
.
onde c e um n umero real positivo. Qual o valor da constante c?
103
Para que f(x, y) seja uma funcao densidade de probabilidade con-
junta devemos ter:
a) f(x, y) 0 e
b)
_

f
(X,Y )
(x, y)dydx = 1.
Como exp[(x +y)] > 0 o item a) e obvio se c > 0.
Contudo, para que o item b seja verdadeiro devemos ter
c.
_

0
_

x
exp[(x +y)]dydx = c.
_

0
exp[x]
_

x
exp[y]dydx =
_

0
exp[2x]dx =
c
2
= 1
e concluimos que c = 2. Para calcular P( < X 3, 2 < Y 5)
procedemos com
P(< X 3, 2 < Y 5) = 2.
_
3
0
_
5
max {x,2}
exp[(x +y)]dydx =
2.
_
2
0
exp[x]
_
5
2
exp[y]dydx + 2.
_
3
2
exp[x]
_
5
x
exp[y]dydx =
2.(exp[2]exp[5])
_
2
0
exp[x]dx+2.
_
3
2
exp[x](exp[x]exp[5])dx =
2.(exp[2] exp[5]).(1 exp[2] + 2.(exp[4]
exp[6]) 2. exp[5].(exp[2] exp[3]).
Como no caso discreto podemos denir as fun coe densidades de prob-
abilidades marginais de X e de Y :
Denicao 7.22. Se (X, Y ) e um vetor aleat orio, as fun coes densidades
de probabilidades marginais de X, f
X
(x), e de Y , f
Y
(y) sao denidas,
para x e y xados, por
f
X
(x) =
_

f
(X,Y )
(x, y)dy
e
f
Y
(y) =
_

f
(X,Y )
(x, y)dx,
respectivamente.
Em continuac ao ao exemplo acima temos
104
Exemplo 7.23. Se
f(x, y) =
_
0 : x < 0
2. exp[(x +y)] : 0 x < y <
temos que, para x xado
f
X
(x) =
_

x
2. exp[(x +y)]dy = 2. exp[2x], 0 x < ,
a func ao densidade de probabilidade de uma vari avel aleat oria expo-
nencial de par ametro 2.
Para y xado
f
Y
(y) = 2.
_
y
0
. exp[(x+y)]dx = 2. exp[y].(1exp[y]), 0 y < .
Para o c alculo da esperanca de uma transformacao do vetor aleat orio
(X, Y ) utilizamos um teorema an alogo ao Teorema para o caso bivaria
do discreto.
Teorema 7.24. Se (X, Y ) e um vetor aleatorio e com funcao densidade
de probabilidade f
(X,Y )
(x, y) e se g(x, y) e uma funcao a valores reais,
limitada, entao
E[g(X, Y )] =
_

g(x, y)dydx.
Em continuac ao ao exemplo acima temos
Exemplo 7.25. Se
f(x, y) =
_
0 : x < 0
2. exp[(x +y)] : 0 x < y <
A transformac ao X.Y tem media
E[X.Y ] =
_

0
_

x
x.y2. exp[(x+y)]dydx =
_

0
2.x exp[x]
_

x
y. exp[y]dydx =
_

0
2.x exp[x](x + 1) exp[x]dx = 1.
Como X e uma variavel aleat oria exponencial de par ametro 2, E[X] =
1
2
e V ar(X) =
1
4
.
Com respeito ` a vari avel Y temos
E[Y ] =
_

0
2.y. exp[y](1 exp[y])dy =
3
2
105
E[Y
2
] =
_

0
2.y
2
. exp[y](1 exp[y])dy =
7
2
e V ar(Y ) =
5
4
.
Portanto Cov(X, Y ) = 1
3
4
=
1
4
e (X, Y ) =
1
4

1
4
.
5
4
= 0, 45.
Como no caso discreto podemos denir as probabilidades condi-
cionais de um evento do espaco amostral induzido por X, condicionado
a um valor particular y de Y . Devemos ser cuidadosos pois sabemos
que, como a vari avel Y e contnua, P(Y = y) = 0. Tais probabilidades
s ao calculadas atraves das densidades de probabilidades condicionais:
Denicao 7.26. Se (X, Y ) e um vetor aleatorio com funcao densidade
de probabilidade conjunta f
(X,Y )
(x, y), a densidade condicional de X,
dado que Y = y e denida por
f
X|Y
(x[y) =
f
(X,Y )
(x, y)
f
Y
(y)
, f
Y
(y) > 0,
e densidade condicional de Y , dado que X = x e denida por
f
Y |X
(y[x) =
f
(X,Y )
(x, y)
f
X
(x)
, f
X
(x) > 0.
Em continuac ao ao exemplo acima temos
Exemplo 7.27. Se
f(x, y) =
_
0 : x < 0
2. exp[(x +y)] : 0 x < y <
temos
f
X
(x) = 2. exp[2x], 0 x < e
f
Y
(y) = 2. exp[y].(1 exp[y]), 0 y < .
Portanto
f
X|Y
(x[y) =
2. exp[(x +y)]
2. exp[y].(1 exp[y])
=
exp[x]
1 exp[y]
, 0 x < y.
f
Y |X
(y[x) =
2. exp[(x +y)]
2. exp[2x]
=
exp[y]
exp[x]
, x y < .
e podemos calcular
E[X[Y = y] =
_
y
0
x.
exp[x]
1 exp[y]
=
1
1 exp[y]
[1exp[y]y exp[y]] = (y).
106
Assim (Y ) e uma vari avel aleatoria, com media
E[(Y )] = EE[X[Y ] =
_

0
1
1 exp[y]
[1exp[y] y exp[y]].2. exp[y].(1exp[y])dy =
_

0
(2. exp[y] 2. exp[2y] 2.y. exp[2y])dy =
1
2
= E[X].
Fato e que, como no caso discreto, as propriedades
E[X] = EE[X[Y ]
V ar(X) = E[V ar(X[Y )] +V ar(E[Y [X])
s ao verdadeiras.
Quando a func ao de densidade condicional e igual ` a densidade mar-
ginal dizemos que as vari aveis sao independentes.
Denicao 7.28. As vari aveis aleat orias X e Y do vetor aleat orio
(X, Y ) sao independentes se, e somente se,
f
(X,Y )(x,y)=f
X
(x).f
Y
(y)
para todo par (x, y) de (X, Y ).
Exemplo 7.29. Se
f(x, y) =
_
0 : x < 0
exp[(x +y)] : 0 x < , 0 y <
temos
f
X
(x) =
_

0
exp[(x +y)]dy = exp[x],
f
Y
(y) =
_

0
exp[(x +y)]dx = exp[y]
de maneira que
f
(X,Y )
(x, y) = exp[(x +y)] = exp[x]. exp[y] = f
X
(x).f
Y
(y)
e concluimos que X e Y s ao independentes.
107
Observacao 7.30. Distribuicao normal bivariada Um vetor aleat orio
bidimensional (X, Y ), representando duas caractersticas de uma pop-
ulac ao, tem distribuic ao normal bivariada, N(
X
,
Y
,
2
X
,
2
Y
,
XY
), com
E[X] =
X
, E[Y ] =
Y
, V ar(X) =
2
X
, V ar(Y ) =
2
Y
e CORR(X, Y ) =

XY
= se, e somente se,
(X, Y ) tem fun cao densidade de probabilidade
f
XY
(x, y) = [
1
2
X

Y
_
1
2
exp K(x, y).
onde
K(x, y) =
1
2(1
2
)
[(
x
X

X
)
2
+ (
y
Y

Y
)
2

2(x
X
)(y
Y
)

Y
].
O vetor aleat orio bidimensional normal tem algumas propriedades
impares, tais como:
As marginais X e Y s ao independentes se, e somente se, COV (X, Y ) =
0, pois neste caso a densidade conjunta e o produto de suas marginais
as quais tambem tem distribuic oes normais.
f
XY
(x, y) =
1

2
X
exp[(
x
X

X
)
2
].
1

2
Y
exp[(
y
Y

Y
)
2
] = f
X
(x).f
Y
(y),
A distribui cao condicional de Y dado X, (Y [X = x) ( de X dado Y ,
(X[Y = y)) tambem tem distribuic ao normal, em particular
(Y [X = x) N(
Y
+

Y

X
(x
X
);
2
Y
(1
2
))
Portanto
E[Y [X = x] =
Y
+

Y

X
(x
X
) = (
Y


Y

X
) +

Y

X
x
e uma func ao linear de x de parametros
Y


Y

X
e

Y

X
.
Transformacoes de variaveis aleat orias
Suponha que desejamos obter a func ao densidade de probabilidade
conjunta de um vetor aleat orio (Y
1
, Y
2
), f
(Y
2
,Y
2
)
(y
1
, y
2
) obtido atraves
de transfomac oes do vetor aleat orio (X
1
, X
2
), com func ao densidade de
probabilidade conjunta f
(X
2
,X
2
)
(x
1
, x
2
), onde Y
1
= g
1
(X
1
, X
2
) e Y
2
=
g
2
(X
1
, X
2
) denem transformac oes bijetivas de '
(X
1
,X
2
)
= (x
1
, x
2
) :
f
(X
1
,X
2
)
(x
1
, x
2
) > 0 em '
(Y
1
,Y
2
)
= (y
1
, y
2
) : f
(Y
2
,Y
2
)
(y
1
, y
2
) > 0. A
soluc ao esta no teorema seguinte que admitiremos sem prova a qual e
encontrada em literatura especica.
108
Teorema 7.31. Seja (X
1
, X
2
) um vetor aleatorio com funcao densi-
dade de probabilidade conjunta f
(X
2
,X
2
)
(x
1
, x
2
). Se
a) Y
1
= g
1
(X
1
, X
2
) e Y
2
= g
2
(X
1
, X
2
) denem transformacoes bije-
tivas e contnuas de '
(X
1
,X
2
)
em '
(Y
1
,Y
2
)
;
b) as derivadas parciais de x
1
= g
1
1
(y
1
, y
2
) e x
2
= g
1
2
(y
1
, y
2
) sao
contnuas em '
(Y
1
,Y
2
)
;
c) O Jacobiano J =
x
1
y
1
.
x
2
y
2

x
1
y
2
.
x
2
y
1
e diferente de zero, 0, em
'
(Y
1
,Y
2
)
,
entao a funcao densidade de probabilidade conjunta de (Y
1
, Y
2
) e
f
(Y
2
,Y
2
)
(y
1
, y
2
) = [J[.f
(X
1
,X
2
)
(g
1
1
(y
1
, y
2
), g
1
2
(y
1
, y
2
)), (y
1
, y
2
) '
(Y
1
,Y
2
)
.
Exemplo 7.32. Suponha que X
1
e X
2
s ao vari aveis aleatorias inde-
pendentes e identicamente distribuidas com distribuicao uniforme no
intervalo [0, 1]. Ent ao '
(X
1
,X
2
)
= (x
1
, x
2
) : 0 x
1
1, 0 x
2
1.
Sejam Y
1
= g
1
(X
1
, X
2
) = X
1
+ X
2
e e Y
2
= g
2
(X
1
, X
2
) = X
2
X
1
.
Ent ao x
1
= g
1
1
(y
1
, y
2
) =
y
1
y
2
2
e x
2
= g
1
2
(y
1
, y
2
) =
y
1
+y
2
2
e
J =
x
1
y
1
.
x
2
y
2

x
1
y
2
.
x
2
y
1
=
1
2
.
1
2
+
1
2
.
1
2
=
1
2
.
Os domnios '
(X
1
,X
2
)
e '
(Y
1
,Y
2
)
est ao na Figura 8.1.
Figura 8.1 - '
(X
1
,X
2
)
e '
(Y
1
,Y
2
)
109
A fronteira (x
1
, x
2
) : x
1
= 0, 0 x
2
1 de '
(X
1
,X
2
)
e transfor-
mada na fronteira (y
1
, y
2
) : 0 y
1
1, y
2
= y
1
de '
(Y
1
,Y
2
)
;
A fronteira (x
1
, x
2
) : 0 x
1
1, x
2
= 0 de '
(X
1
,X
2
)
e transfor-
mada na fronteira (y
1
, y
2
) : 0 y
1
1, y
2
= y
1
de '
(Y
1
,Y
2
)
;
A fronteira (x
1
, x
2
) : 0 x
1
1, x
2
= 1 de '
(X
1
,X
2
)
e transfor-
mada na fronteira (y
1
, y
2
) : 1 y
1
2, y
2
= 2 y
1
de '
(Y
1
,Y
2
)
;
A fronteira (x
1
, x
2
) : x
1
= 1 0 x
2
1 de '
(X
1
,X
2
)
e transformada
na fronteira (y
1
, y
2
) : 1 y
1
2, y
2
= y
1
2 de '
(Y
1
,Y
2
)
;
A funcao densidade de probabilidade conjunta de (Y
1
, Y
2
) e
f
(Y
2
,Y
2
)
(y
1
, y
2
) =
1
2
.1
[0,1]
(
y
1
y
2
2
).1
[0,1]
(
y
1
+y
2
2
) =
1
2
, (y
1
, y
2
) '
(Y
1
,Y
2
)
.
As condic oes a, b e c do Teorema sao de certa forma restritivas.
As transformac oes (Y
1
, Y
2
) de '
(X
1
,X
2
)
podem nao ser injetoras, mas
o domnio '
(X
1
,X
2
)
pode ser particionado em v arias partes, digamos
'
1
(X
1
,X
2
)
, '
2
(X
1
,X
2
)
, ...'
m
(X
1
,X
2
)
, de maneira que a restric ao da transformacao
(Y
1
, Y
2
) de '
i
(X
1
,X
2
)
em '
(Y
1
,Y
2
)
, 1 i m, seja injetora. Neste
caso, denindo x
i
1
= g
i
1
1
(y
1
, y
2
) e x
i
2
= g
i
1
2
(y
1
, y
2
) em '
i
(X
1
,X
2
)
e
J
i
=
x
i
1
y
1
.
x
i
2
y
2

x
i
1
y
2
.
x
i
2
y
1
podemos aplicar o Teorema em cada domnio
da partic ao e temos:
Corolario 7.33. Seja (X
1
, X
2
) um vetor aleatorio com funcao densi-
dade de probabilidade conjunta f
(X
2
,X
2
)
(x
1
, x
2
). Se
a) Y
1
= g
i
1
(X
1
, X
2
) e Y
2
= g
i
2
(X
1
, X
2
) denem transformacoes bije-
tivas e contnuas de '
i
(X
1
,X
2
)
em '
(Y
1
,Y
2
)
;
b) as derivadas parciais de x
i
1
= g
i
1
1
(y
1
, y
2
) e x
i
2
= g
i
1
2
(y
1
, y
2
) sao
contnuas em '
(Y
1
,Y
2
)
;
c) O Jacobiano J
i
e diferente de zero, 0, em '
(Y
1
,Y
2
)
,
entao a funcao densidade de probabilidade conjunta de (Y
1
, Y
2
) e
f
(Y
2
,Y
2
)
(y
1
, y
2
) = [J
i
[.f
(X
1
,X
2
)
(g
i
1
1
(y
1
, y
2
), g
i
1
1
(y
1
, y
2
)), (y
1
, y
2
) '
(Y
1
,Y
2
)
.
Como no caso univariado A fun cao geradora de momentos bivariada
caracteriza completamente o modelo probabilstico.
Denicao 7.34. A func ao geradora de momentos de um vetor aleat orio
(X, Y ) e denida por
M
(X,Y )
(t
1
, t
2
) = E[exp[t
1
.X +t
2
.Y ].
110
Se (X, Y ) tem fun cao densidade de probabilidade f
(X,Y )
(x, y),
M
(X,Y )
(t
1
, t
2
) =
_

exp[t
1
.x +t
2
.y].f
(X,Y )
(x, y)dydx.
Exemplo 7.35. Se (X, Y ) tem distribuic ao normal bivariada, N(
X
,
Y
,
2
X
,
2
Y
,
XY
),
ent ao, pode-se provar que a funcao geradora de momentos bivariada e
M
(X,Y )
(t
1
, t
2
) = exp[t
1
.
X
+t
2
.
Y
+
1
2
(t
2
1

2
X
+ 2..
X
.
Y
+t
2
2

2
Y
].
E-mail address: bueno@ime.usp.br
Departamento de Estatstica, Instituto de Matem atica e Estatstica,
Universidade de S ao Paulo, Caixa Postal 66281, CEP 05311-970, S ao
Paulo, Brazil

You might also like