Regressão Descontinuada
Inferência Causal (MI628A)
Marília Rocha
Thiago Paulichen
Tiago Amorim
IMECC - Unicamp
25 de Junho de 2024
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
1 / 31
A Regressão Descontinuada (Regression Discontinuity Design - RDD) é utilizada quando a atribuição do tratamento depende deterministicamente de uma covariável. Quando essa atribuição
é exata, o processo de seleção é totalmente conhecido e pode ser modelado para produzir uma
inferência causal não-viesada.
Adaptado de: Waiting for Life to Arrive
T HOMAS D C OOK
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
2 / 31
Sumário
Histórico
Linha do Tempo
Dificuldades e Ressurgimento
Regressão Descontinuada
Sharp RD
Fuzzy RD
Estimadores Locais
Teste de Densidade de McCrary
Exemplos
Toy Problem
Medicare
Pacotes disponíveis
Referências
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
3 / 31
Linha do Tempo
Primeira publicação
em Estatística (Rubin)
Primeira publicação
(Thistlethwaite e
Campbell)
Reinvenção e
prova formal
(Goldberger)
Ampliação das
aplicações
(Trochim)
Apresentado como
novo método
(Finkelstein et.al)
1960 1965 1970 1975 1980 1985 1990 1995 2000
Grupo de Estudos
Universidade Northwestern
(Pré-teste, Fuzzy, não paramétrico)
Ressurgimento do interesse
(Política e micro-economia)
Levantamento de Cook [2008]
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
4 / 31
Dificuldades e Ressurgimento
Impasses:
• Preconceito da comunidade estatística por
um tema desenvolvido pelas ciências sociais;
• Desenvolvimento inicial restrito ao grupo
da Northwestern;
• Papers usavam diferentes termos para
RDD.
Razões para o ressurgimento:
• Desenvolvimento por economistas renoFonte: Cunningham [2021]
mados em diversas instituições;
• Nova gama de aplicações.
Maiores detalhes em Cook [2008].
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
5 / 31
Descontinuidade Sharp e Fuzzy
Sharp: a atribuição de tratamento segue uma
regra determinista:
1 se x ≥ c
i
Zi =
0 c.c.
Fuzzy: a probabilidade de atribuição de tratamento é descontínua em um ponto de corte
conhecido:
g (x ) se x ≥ c
1 i
i
P(Zi = 1 | xi ) =
g (x ) c.c.
0
Inferência Causal (MI628A)
Fonte: Cunningham [2021]
i
Regressão Descontinuada
25 de Junho de 2024
6 / 31
Descontinuidade Sharp e Fuzzy
Sharp: a atribuição de tratamento segue uma
Exemplos:
regra determinista:
1 se x ≥ c
i
Zi =
0 c.c.
S Droga administrada a pacientes com uma
taxa acima de certo limite.
S Aulas de recuperação obrigatória para alunos com média abaixo de certo valor.
Fuzzy: a probabilidade de atribuição de tratamento é descontínua em um ponto de corte
conhecido:
F Programa da saúde suplementar oferecido
à famílias que se enquadram em determinado critério de renda.
g (x ) se x ≥ c
1 i
i
P(Zi = 1 | xi ) =
g (x ) c.c.
0
Inferência Causal (MI628A)
i
Regressão Descontinuada
25 de Junho de 2024
7 / 31
Descontinuidade Sharp e Fuzzy
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
8 / 31
Sharp RD
Tratamento é determinado como Zi = I[Xi ≥ c], onde Xi é a variável de atribuição e c é o ponto
de corte.
Suposições:
(A1) E(Yi (0) | Xi ) é contínuo em Xi = c;
(A2) E(Yi (1) | Xi ) é contínua em Xi = c;
(A3) E(Yi (1) − Yi (0) | Xi ) é contínua em Xi = c;
Um design RD foca no ponto de corte na estimação do efeito causal:
τc := E(τi | Xi = c) = E(Yi (1) − Yi (0) | Xi = c),
e considera principalmente amostras localmente próximas ao ponto de corte.
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
9 / 31
Sharp RD
Dado ε > 0 e as suposições (A1), (A2) e (A3), podemos tomar os limites laterais ao longo do
ponto de corte c, obtendo:
E(Yi (1) | Xi = c) = lim E(Yi (1) | Xi = c + ε)
ε→0
= lim E(Yi (1) | Zi = 1, Xi = c + ε)
ε→0
= lim E(Yi | Xi = c + ε).
ε→0
Similarmente:
E(Yi (0) | Xi = c) = lim E(Yi | Xi = c − ε).
ε→0
Dessa forma temos que:
τc = lim E(Yi | Xi = c + ε) − E(Yi | Xi = c − ε) .
ε→0
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
10 / 31
Fuzzy RD
A probabilidade condicional do tratamento P(Zi = 1 | Xi ), não pula de 0 para 1 no ponto de corte.
P(Zi = 1 | Xi ) é descontínua em c e o tamanho dessa descontinuidade está entre 0 e 1.
Suposição adicional:
(A4) Yi (0), Yi (1) ⊥ Zi | Xi (ignorabilidade).
Com isso, para um ε > 0 dado, temos:
E(Yi | Xi = c + ε) − E(Yi | Xi = c − ε)
= E(Yi (0) + Zi τi | Xi = c + ε) − E(Yi (0) + Zi τi | Xi = c − ε)
(A4) = E(Yi (0) | Xi = c + ε) + E(Zi | Xi = c + ε)E(τi | Xi = c + ε) − E(Yi (0) | Xi = c − ε)
− E(Zi | Xi = c − ε)E(τi | Xi = c − ε).
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
11 / 31
Fuzzy RD
Fazendo o limite ε → 0, segue que:
lim E(Yi | Xi = c + ε) − E(Yi | Xi = c − ε) =
ε→0
lim E(Zi | Xi = c + ε) − E(Zi | Xi = c − ε) τc
ε→0
isto é:
E(Yi | Xi = c + ε) − E(Yi | Xi = c − ε)
τc = lim
.
ε→0 E(Zi | Xi = c + ε) − E(Zi | Xi = c − ε)
Observe que o caso Sharp pode ser visto como um caso particular do Fuzzy, uma vez que neste
caso:
lim E(Zi | Xi = c + ε) − E(Zi | Xi = c − ε) = 1.
ε→0
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
12 / 31
Estimadores Locais
Estimador local não-paramétrico:
P
τ̂c =
P
Xi −c
Xi −c
Y
K
Y
K
i
i
i:c≤Xi <c+h
i:c−h<Xi <c
h
h
− P
,
P
Xi −c
Xi −c
K
K
i:c≤Xi <c+h
i:c−h<Xi <c
h
h
onde K (u) é um kernel com
R1
−1
K (u) du = 1. É viesado em O(h).
Estimador local linear (Sharp RD):
τ̂c = β̂0+ − β̂0−
onde β̂0+ e β̂0− vem do ajuste de Yi por mínimos quadrados:
P
P
+
+
2
min
e min i:c−h<Xi <c (Yi − β0− − βx− (Xi − c))2 .
i:c≤Xi <c+h (Yi − β0 − βx (Xi − c))
+
β
β−
Viés com regressão é em geral O(h2 ).
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
13 / 31
Estimadores Locais
Estimador local linear (Fuzzy RD):
É preciso tomar cuidado para não confundir
β̂ + − β̂0−
τ̂y
= 0+
τ̂c =
τ̂z
α̂0 − α̂0−
descontinuidade com não-linearidade!
onde β̂0+ e β̂0− seguem fórmula para descontinuidade sharp e α̂0+ e α̂0− vem do ajuste de Zi
por mínimos quadrados:
P
+
+
2
min
i:c≤Xi <c+h (Zi − α0 − αx (Xi − c))
+
α
P
−
−
2
min
i:c−h<Xi <c (Zi − α0 − αx (Xi − c)) .
−
α
Imbens and Lemieux [2008] sugerem fortemente fazer regressão.
É sugerido usar h ∝ N −δ , com 1/5 < δ < 2/5.
Fonte: Cunningham [2021]
h ótimo estimado com validação cruzada.
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
14 / 31
Estimador da Variância
Distribuição assintótica:
√
Nh(τ̂ − τ ) → N
τy2
τy
1
0, 2 Vτy + 4 Vτz − 2 3 Cτy τz
τz
τz
τz
!
.
Um estimador pluggin é estimar os termos da equação acima.
4
(σ̂y2+ + σ̂y2− )
f̂x (c)
4
V̂τz = f̂ (c)
(σ̂z2+ + σ̂z2− )
x
• V̂τy =
•
•
•
4
(Ĉyz + + Ĉyz − )
Ĉτy τz = f̂ (c)
x
Nh+ +Nh−
f̂x (x) = 2Nh
• σ̂y2+ = N1
P
2
• σ̂z2+ = N1
P
2
i:c≤Xi <c+h (Yi − Ŷ (Xi ))
h+
h+
• Ĉyz + = N1
h+
i:c≤Xi <c+h (Zi − Ẑ (Xi ))
P
i:c≤Xi <c+h (Yi − Ŷ (Xi ))(Zi − Ẑ (Xi ))
Os termos negativos tem somatório em {i : c − h < Xi < c}, e usam Nh− .
Pode-se substituir pelo estimador robusto de um TSLS para RD Fuzzy e de OLS para RD Sharp.
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
15 / 31
Teste de Densidade de McCrary
O teste de densidade de McCrary [2008] ajuda a avaliar a validade dos dados.
Avaliação envolve o uso de polinômios locais para estimar densidade.
Fonte: Cunningham [2021]
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
16 / 31
Toy Problem
Função geradora dos dados:
Avaliação da densidade de pontos.
Yi = 50 − Xi + 0.02Xi2 + 10 I(Xi > 0) + N (0, 5)
Não foi encontrado código pronto em Python
para cálculo da densidade local.
Em R: rddensity.
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
17 / 31
Toy Problem
Largura da banda sugerida: h equivalente a
Otimização feita com validação cruzada com
20 a 40% dos pontos de cada lado.
50% dos de cada lado.
1 X
CV (h) =
(Yi − Yˆh (Xi ))2
N
i
∗
h = argmin CV (h)
h
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
18 / 31
Toy Problem
Estimador não-paramétrico local: retângulo
em [c-h,c+h].
PN
i=1 Yi I(c ≤ Xi < c + h)
τ̂c = P
N
i=1 I(c ≤ Xi < c + h)
PN
i=1 Yi I(c − h < Xi < c)
.
− P
N
i=1 I(c − h < Xi < c)
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
19 / 31
Toy Problem
Para utilizar mínimos quadrados é construída uma aproximação conjunta dos dois lados:
X
min
(Yi − β0 − βx+ (Xi − c)I(c ≤ Xi < c + h) − βx− (Xi − c)I(c − h < Xi < c) − βτ Zi )2
β
i:c−h<Xi <c+h
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
20 / 31
Medicare
Objetivo: Avaliar o impacto do plano de saúde na utilização de cuidados médicos. (Card et al.
[2008])
Limitações: Heterogeneidade de cobertura, viés de seleção - oferta e procura dependem da
saúde inicial, confundindo comparações observacionais.
Solução: Abordagem de regressão descontinuada para comparar o estado de saúde entre pessoas imediatamente antes e imediatamente após os 65 anos de idade (elegibilidade para o programa Medicare):
• Mudanças no número de consultas médicas recentes e nas internações hospitalares;
• Efeitos em diferentes subgrupos;
• Quantificar até que ponto o início da elegibilidade ao Medicare reduz ou aumenta as dispari-
dades no uso de diferentes tipos de serviços.
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
21 / 31
Medicare: Definição do modelo
Modelo:
yija = Xija α + fj (α; β) +
X
k k
Cija
γ + uija
k
• yija : uso de cuidados de saúde para o indivíduo i no grupo socioeconômico j na idade a;
• Xija : conjunto de covariáveis (por exemplo, gênero e região);
• fj (α; β): função suavizada representando o perfil de idade do resultado y para o grupo j;
k
• Cija
: características da cobertura de seguro mantida pelo indivíduo;
• uija : componente de erro não observado.
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
22 / 31
Medicare: Definição do modelo
Problema na estimação (Cobertura do seguro é endógena): a elegibilidade ao programa está
associada a uma redução das diferenças de cobertura entre os grupos demográficos, mas há
um aumento nessas diferenças quando olhamos para coberturas com mais benefícios.
Figura: Cobertura por qualquer seguro e por duas ou mais apólices, por idade e grupo demográfico.
Fonte: Card et al. [2008]
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
23 / 31
Medicare: Definição do modelo
1
(qualquer coberSolução: Definir um modelo de probabilidade para as variáveis indicadoras Cija
2
(plano com maior cobertura e com mais benefícios):
tura) e Cija
1
1
Cija
= Xija βj1 + gj1 (a) + Da πj1 + νija
,
2
2
Cija
= Xija βj2 + gj2 (a) + Da πj2 + νija
,
onde βj1 e βj2 são coeficientes dos grupos socioeconômicos, gj1 (a) e gj2 (a) são perfis de idade
destes grupos, e Da uma indicadora para ter 65 anos ou mais. Supondo que os perfis sejam
contínuos aos 65 anos, qualquer descontinuidade em y pode ser atribuída a descontinuidades
no seguro.
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
24 / 31
Medicare: Resultados
Outras mudanças aos 65 anos (aposentadoria):
• A continuidade exige que todos os
outros fatores que possam afetar o
resultado tenham mudanças suaves aos 65 anos.
• Todos os perfis possuem compor-
tamento suave aos 65 anos em relação à empregabilidade.
Fonte: Card et al. [2008]
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
25 / 31
Medicare: Resultados
Tabela: Medidas de acesso aos cuidados de saúde pouco antes dos 65 anos e descontinuidade estimadas.
Fonte: Card et al. [2008]
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
26 / 31
Medicare: Resultados
Mudanças no acesso e utilização de cuidados médicos:
• 7% das pessoas relataram atrasar os cuidados e 5% relataram não receber cuidados, com
taxas mais elevadas para as minorias com menor escolaridade e hispânicos. As estimativas
implicam redução aos 65 anos em ambas as medidas;
• Os grupos com menor escolaridade e minoritários têm menor probabilidade de ter uma con-
sulta de rotina, mas são mais propensos a ter passado por um período hospitalar;
• As estimativas sugerem que o limiar dos 65 anos está associado a um aumento nas consultas
médicas de rotina, com ganhos maiores para os grupos com taxas mais baixas antes dos 65;
• No geral, há um aumento grande nas taxas de hospitalização aos 65 anos (da ordem dos
10%), mas os ganhos são maiores para os brancos com melhor escolaridade do que para
outros grupos.
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
27 / 31
Pacotes - Linguagem R
• rddtools
• rdd
• rdrobust
• rddensity
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
28 / 31
Referências (1)
Joshua D Angrist and Jörn-Steffen Pischke. Mostly harmless econometrics: An empiricist’s
companion. Princeton university press, 2009.
David Card, Carlos Dobkin, and Nicole Maestas. The impact of nearly universal insurance
coverage on health care utilization: evidence from medicare. American Economic Review, 98
(5):2242–2258, 2008.
Thomas D Cook. “waiting for life to arrive”: a history of the regression-discontinuity design in
psychology, statistics and economics. Journal of Econometrics, 142(2):636–654, 2008.
Scott Cunningham. Causal inference: The mixtape. Yale university press, 2021. URL
https://mixtape.scunning.com/06-regression_discontinuity. Acessado:
18/06/2024.
Michael O Finkelstein, Bruce Levin, and Herbert Robbins. Clinical and prophylactic trials with
assured new treatment for those at greater risk: I. a design proposal. American Journal of
Public Health, 86(5):691–695, 1996.
Arthur S Goldberger. Selection bias in evaluating treatment effects: Some formal illustrations.
Manuscrito não publicado, 1972a.
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
29 / 31
Referências (2)
Arthur S Goldberger. Selection bias in evaluating treatment effects: the case of interaction.
Manuscrito não publicado, 1972b.
Guido W Imbens and Thomas Lemieux. Regression discontinuity designs: A guide to practice.
Journal of econometrics, 142(2):615–635, 2008.
David S Lee and Thomas Lemieux. Regression discontinuity designs in economics. Journal of
economic literature, 48(2):281–355, 2010.
Justin McCrary. Manipulation of the running variable in the regression discontinuity design: A
density test. Journal of econometrics, 142(2):698–714, 2008.
Donald B Rubin. Assignment to treatment group on the basis of a covariate. Journal of
educational Statistics, 2(1):1–26, 1977.
Donald L Thistlethwaite and Donald T Campbell. Regression-discontinuity analysis: An
alternative to the ex post facto experiment. Journal of Educational psychology, 51(6):309,
1960.
William MK Trochim. Research design for program evaluation: The regression-discontinuity
approach, volume 6. SAGE Publications, Incorporated, 1984.
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
30 / 31
Perguntas?
Inferência Causal (MI628A)
Regressão Descontinuada
25 de Junho de 2024
31 / 31
0
You can add this document to your study collection(s)
Sign in Available only to authorized usersYou can add this document to your saved list
Sign in Available only to authorized users(For complaints, use another form )