Professional Documents
Culture Documents
Rafael Terra
Universidade de Braslia-Unb
28 de Setembro, 2015
E [Y (0)|D = 1] e o contrafactual.
Usar E [Y (0)|D = 0] como substituto em estudos nao experimentais
geralmente nao e uma boa ideia.
Em estudos nao experimentais, e provavel que as variaveis que determinam a
selecao ao tratamento tambem determinem o resultado de interesse Yi .
O estimador ingenuo dado pela diferenca de medias e viesado. Para ver isso,
basta notar que
Com esse aumento na variancia das estimativas, alguns tratados podem ser
descartados da analise, ou os mesmos controles podem acabar sendo usados
mais de uma vez.
Os autores mostram que o matching realizado somente com base nas
variaveis significativas produz melhores estimativas do ATE.
Por outro lado, Rubin e Thomas (1996) recomendam nao excluir variaveis
da estimacao do propensity score a nao ser que haja consenso de que essas
variaveis nao estejam correlacionadas com os resultados ou nao sao
apropriadas com base na teoria e achados empricos anteriores.
Para cada unidade tratada, o algoritmo busca a unidade nao tratada com
propensity score mais pr
oximo.
Podemos escolher que o pareamento seja feito com ou sem reposicao.
1 Com reposicao implica que uma vez que um indivduo nao tratado e
pareado com um tratado, esse controle volta para o pool de unidades
nao tratadas e pode ser escolhido novamente. Portanto, uma mesma
unidade pode ser usada duas ou mais vezes como controle.
Se permitirmos a reposic ao, a qualidade media do pareamento
aumentara e o vies ir
a diminuir.
2 Sem reposicao implica que uma vez que o indivduo nao tratado e
pareado, ele nao pode ser usado como controle de outra unidade.
Quando n ao h
a reposic
ao o vies pode aumentar, mas a vari ancia e
menor.
No caso de n ao haver reposic
ao, a ordem segundo a qual as observaco es
s
ao pareadas afetara o resultado final. Softwares especficos permitem
fixar a semente para reproduzir exatamente os resultados.
1
Uniforme : K (u) = 1|u|1
2
Triangular : K (u) = (1 |u|)1|u|1
3 (10)
Epanechnikov : K (u) = (1 u 2 )1|u|1
4
1 1 2
Gaussiana : K (u) = e 2 u
2
Uniform
1.0 Triangle
Epanechnikov
Quartic
Triweight
0.8
Gaussian
Cosine
0.6
0.4
0.2
0.0
Figura 2: Kernels
n0
X P(Xi ) P(Xj )
mina,b (Y0j a b(P(Xj ) P(Xi )))2 K
hn (11)
j=1
p/ Dj = 0
Figura 3: LLR
Di 1 Di
wi = + (12)
P(Xi ) 1 P(Xi )
O ATT e o ATE s
o estao definidos na regiao de suporte comum.
Na figura, somente onde ha sobreposicao e possvel realizar um matching
bem feito. Pode-se checar isso visualmente, por meio de histogramas.
X
D|P(D = 1|X ) (14)
X 1Par X 0Par
SBdepois = 100 p (16)
0, 5(V1Par (X ) + V0Par (X ))
em que Vj (X ) e a variancia das caractersticas X para as amostras de
tratados j = 1 e de controles j = 0.
Um vies abaixo de 5% e suficiente para atingir o balanceamento.