作业 1:交错处理、匹配策略与 Monte Carlo 验证
经济与商务实证研究方法 — 研究生进阶
作业目标
本次作业要求你在交错处理(staggered adoption)框架下,系统比较不同匹配策略与现代 DID 估计量的表现。与本科作业的经典 2×2 DID 不同,你需要面对更贴近现实的政策评估场景:处理在不同时间点分批次进入,且处理效应可能随时间动态变化。
核心任务包括:
- 设计一个渐进式处理的数据生成过程(DGP),包含多期面板、异质性处理效应和动态趋势
- 比较至少三种匹配策略(如:精确匹配、倾向得分匹配、合成控制匹配)与 DID 的结合效果
- 实现至少两种现代 DID 估计量(如 Callaway-Sant’Anna、Sun-Abraham 或 Borusyak-Jaravel-Spiess)作为基准
- 通过Monte Carlo 模拟验证各估计量在不同识别条件下的统计性质(偏误、方差、覆盖率)
- 进行理论推导,解释模拟结果背后的识别逻辑与偏误来源
本作业对应课程第六至第九讲内容:面板数据、交错 DID、合成控制与因果机器学习前沿。
背景一:从 2×2 DID 到交错处理
经典 DID 假设所有处理单位在同一时间接受处理。但在现实政策评估中,处理往往是渐进实施的:
- 不同城市在不同年份试点同一政策
- 不同企业在不同季度采用同一技术
- 不同个体在不同时间注册同一项目
这种交错处理(staggered adoption)带来了两个核心挑战:
挑战 1:TWFE 的偏误
在交错处理下,传统双向固定效应(TWFE)回归会产生负权重问题(Goodman-Bacon 2021)。早期接受处理的单位会被当作后期接受处理单位的“控制组”,而这些“控制组”实际上已经受到了处理,导致估计量出现偏误。
挑战 2:动态处理效应的异质性
处理效应可能随时间变化(如:短期为正、长期衰减),且不同批次(cohort)的处理效应可能存在异质性。这使得简单的平均处理效应(ATT)难以捕捉完整的政策效果。
背景二:匹配策略在交错处理中的角色
在交错处理框架下,匹配策略需要相应调整:
匹配策略 1:同期匹配( contemporaneous matching)
在每个处理批次进入时,仅使用该时点的未处理单位作为控制池,进行匹配后估计该批次的 ATT。
匹配策略 2:合成控制法(Synthetic Control)
为每个处理单位构建一个由未处理单位加权合成的“虚拟对照”,特别适合处理单位较少、但时间序列较长的情形(Abadie, Diamond & Hainmueller 2010)。
匹配策略 3:滚动匹配(Rolling Matching)
在每个时间点重新进行匹配,确保控制组始终是“尚未处理”的单位,避免使用未来会接受处理的单位作为当前控制组。
背景三:现代 DID 估计量
作为基准比较,你需要实现至少两种现代 DID 估计量:
Callaway & Sant’Anna (2021)
通过“组别-时间”ATT 的构建,避免 TWFE 的负权重问题:
\[ ATT(g,t) = E[Y_t - Y_{g-1} \mid G_g = 1] - E[Y_t - Y_{g-1} \mid C = 1] \]
其中 \(G_g\) 表示在第 \(g\) 期接受处理的组别,\(C\) 表示从未接受处理的组别(clean control)。
Sun & Abraham (2021)
通过交互加权估计量,控制不同处理批次的异质性趋势:
\[ Y_{it} = \sum_{g} \sum_{l \neq -1} \mu_{g,l} \cdot 1\{G_i = g\} \cdot 1\{t - g = l\} + \gamma_i + \lambda_t + \varepsilon_{it} \]
Borusyak, Jaravel & Spiess (2024) — 插补估计量
利用未处理单位的 outcome 预测处理单位的反事实结果,适用于存在从未处理单位的情形。
任务一:设计交错处理的 DGP(30%)
请设计一个多期面板数据的模拟环境。最低要求:
- 面板结构:\(N \geq 500\) 个个体,\(T \geq 10\) 个时期
- 处理分配:至少 3 个处理批次(cohorts),在不同时间点进入
- 协变量:至少 2 个可观测协变量 \(X_i\)(至少 1 个连续变量、1 个离散变量)
- 处理效应:设定动态处理效应 \(\tau_{it}\),可随时间变化
- 趋势异质性:允许不同批次或不同协变量子群具有不同的趋势
你需要明确写出以下方程:
- 处理分配机制:\(D_{it} = f(X_i, \alpha_i, \varepsilon_i, t)\)
- 潜在结果方程:\(Y_{it}(0)\) 和 \(Y_{it}(1)\) 的生成过程
- 观测结果:\(Y_{it} = D_{it} \cdot Y_{it}(1) + (1-D_{it}) \cdot Y_{it}(0)\)
设计要求:
| 场景 | 目的 | 关键设定 |
|---|---|---|
| 场景 A | 基准情形:现代 DID 应表现良好 | 平行趋势成立,存在 never-treated 单位,处理效应同质 |
| 场景 B | 匹配策略的优势情形 | 处理分配与协变量相关,存在选择偏误,但条件平行趋势成立 |
| 场景 C | 匹配策略的局限情形 | 存在不可观测的时变混淆,或缺乏 clean controls |
| 场景 D | 动态效应与异质性 | 处理效应随时间衰减,不同 cohort 效应不同 |
至少模拟 1000 次(建议 2000 次以提高精度)。
任务二:实现匹配策略与估计量(25%)
必须实现的估计方法
A. 匹配 + DID 策略(至少选 2 种)
- 同期 PSM-DID:在每个 cohort 进入时,使用当时的未处理单位进行倾向得分匹配,然后估计 DID
- 滚动 PSM-DID:在每个时期重新匹配,确保控制组始终是尚未处理的单位
- 合成控制法(SC):为每个处理单位构建合成控制,计算处理效应
- 合成双重差分(Synthetic DID):Arkhangelsky et al. (2021) 的方法,结合合成控制与 DID
B. 现代 DID 估计量(至少选 2 种)
- Callaway-Sant’Anna (2021):使用
did包(R)或csdid(Stata) - Sun-Abraham (2021):使用
eventstudyinteract(Stata)或手动实现 - Borusyak-Jaravel-Spiess (2024):使用
did_imputation(Stata)或手动实现
C. 基准比较
- 传统 TWFE:作为“反面教材”,展示其在交错处理下的偏误
报告要求
对每种方法,报告:
- 估计准确性:Bias、RMSE、Median Absolute Error
- 推断有效性:95% 置信区间覆盖率、标准误 vs 蒙特卡洛标准差
- 动态效应估计:事件研究图(event-study plot),展示处理前后各期的估计系数
- 异质性分析:不同 cohort 或不同协变量子群的 ATT 估计
任务三:Monte Carlo 验证与理论推导(30%)
3.1 统计性质验证
针对你的 DGP,严格验证以下理论命题:
命题 1:当存在 never-treated 单位时,Callaway-Sant’Anna 估计量是否一致?通过模拟验证其偏误是否趋近于 0。
命题 2:当平行趋势只在条件于 \(X_i\) 时成立,滚动匹配 DID 是否能恢复一致性?与无条件 DID 比较。
命题 3:合成控制法在什么条件下优于传统匹配?(提示:考虑处理单位数量、donor pool 的相似性)
命题 4:传统 TWFE 在交错处理下的偏误方向与大小。参考 Goodman-Bacon (2021) 的分解,你的 DGP 中哪些比较贡献了负权重?
3.2 理论推导要求
请选择以下至少一个命题进行严格的数学推导:
选项 A:推导 Callaway-Sant’Anna ATT(g,t) 的识别条件
在“条件平行趋势”和“无预期效应”假设下,证明:
\[ ATT(g,t) = E[Y_t - Y_{g-1} \mid G_g = 1] - E[Y_t - Y_{g-1} \mid C = 1] \]
能够识别真实的平均处理效应。
选项 B:推导 TWFE 在交错处理下的偏误分解
参考 Goodman-Bacon (2021),证明 TWFE 估计量可以分解为不同 2×2 DID 比较的加权平均,且其中部分权重为负。
选项 C:推导匹配估计量的渐近方差
在特定匹配策略下,推导 ATT 估计量的渐近分布,并讨论 bootstrap 标准误的适用性。
推导要求: - 明确定义所有符号和假设 - 逐步推导,每一步说明依据 - 最终结论与模拟结果相互验证
任务四:实证论文复现或批判(15%)
选择一篇使用交错 DID 或合成控制的学术论文(建议来自 AER、QJE、JPE、Econometrica、JoE、AEJ: Applied 等期刊)。
选项 A:复现(Replication)
如果论文数据公开,尝试: - 使用原文方法复现主要结果 - 使用现代 DID 估计量(如 Callaway-Sant’Anna)重新估计,比较与 TWFE 的差异 - 评估原文的识别策略在现代方法框架下的稳健性
选项 B:批判性评价(Critical Assessment)
如果数据不公开,进行严格的识别评价: - 论文是否讨论了交错处理下 TWFE 的潜在偏误? - 平行趋势假设是否可信?作者如何检验? - 是否存在 clean controls?如果没有,估计量可能面临什么问题? - 根据你的模拟经验,该论文的结论在何种条件下可信,何种条件下脆弱?
提交要求
1. 研究报告(PDF + Markdown 源文件)
报告应包含: - DGP 设计:完整的数据生成方程,说明每个参数的经济/统计含义 - 理论推导:至少一个命题的严格证明 - 模拟结果:表格 + 图形,包含事件研究图、偏误-方差权衡图、覆盖率表 - 结果解读:不仅报告“哪个方法更好”,更要解释“为什么”以及“在什么条件下” - 论文评价/复现:详细的评估或复现报告
字数要求:4000-8000 字(不含代码和附录)
2. 可复现代码
- 提供完整的、可独立运行的代码(Stata do-file、R script、Python notebook 均可)
- 在代码开头设置随机种子(
set seed或np.random.seed) - 代码应能一键生成所有表格和图形
- 如使用外部包,请在开头列出安装命令
3. AI 使用声明
如果使用 AI 辅助编程、推导或写作,请提交: - 使用的 AI 工具列表 - 关键 prompt 示例 - AI 输出的原始内容 + 你的修改说明 - 最终版本中哪些内容完全由你完成
注意:AI 使用不扣分,但未披露将被视为学术不端。
评分标准
| 维度 | 权重 | 评分要点 |
|---|---|---|
| DGP 设计 | 20% | 交错处理设定合理,动态效应与异质性设计清晰,场景覆盖充分 |
| 方法实现 | 25% | 匹配策略与现代 DID 实现正确,代码可复现,图形规范 |
| 理论推导 | 25% | 推导严格,假设明确,结论与模拟相互验证 |
| Monte Carlo 分析 | 20% | 统计指标完整,事件研究图清晰,对偏误来源有深入解释 |
| 论文复现/评价 | 10% | 评价深入,能结合模拟经验指出原论文的稳健性与脆弱性 |
建议工具与包
Stata
csdid(Callaway-Sant’Anna)eventstudyinteract(Sun-Abraham)did_imputation(Borusyak-Jaravel-Spiess)synth(合成控制)sdid(Synthetic DID)reghdfe(高维固定效应,用于基准 TWFE)psmatch2或teffects psmatch(倾向得分匹配)
R
did(Callaway-Sant’Anna)fixest(固定效应与事件研究)MatchIt(匹配)Synth(合成控制)synthdid(Synthetic DID)
Python
pandas,numpy,statsmodelslinearmodels(面板数据)- 可手动实现匹配与现代 DID 估计量
学术诚信
- 可以与同学讨论思路,但代码、推导和报告必须独立完成
- 引用他人代码或方法时明确标注来源
- AI 辅助需如实披露(见上文)
- 严禁抄袭
参考文献
核心方法论文献:
- Goodman-Bacon, A. (2021). Difference-in-differences with variation in treatment timing. Journal of Econometrics, 225(2), 254-277.
- Callaway, B., & Sant’Anna, P. H. (2021). Difference-in-differences with multiple time periods. Journal of Econometrics, 225(2), 200-230.
- Sun, L., & Abraham, S. (2021). Estimating dynamic treatment effects in event studies with heterogeneous treatment effects. Journal of Econometrics, 225(2), 175-199.
- Borusyak, K., Jaravel, X., & Spiess, J. (2024). Revisiting event study designs: Robust and efficient estimation. Review of Economic Studies, 91(6), 3253-3285.
- Abadie, A., Diamond, A., & Hainmueller, J. (2010). Synthetic control methods for comparative case studies. Journal of the American Statistical Association, 105(490), 493-505.
- Arkhangelsky, D., Athey, S., Hirshberg, D. A., Imbens, G. W., & Wager, S. (2021). Synthetic difference-in-differences. American Economic Review, 111(12), 4088-4118.
综述与教材:
- Cunningham, S. (2021). Causal Inference: The Mixtape. Ch. 9 (Difference-in-Differences).
- Roth, J., Sant’Anna, P. H., Bilinski, A., & Poe, J. (2023). What’s trending in difference-in-differences? A synthesis of the recent econometrics literature. Journal of Econometrics.
祝研究愉快!如有问题,请在课程讨论区或答疑时间交流。