作业 1:交错处理、匹配策略与 Monte Carlo 验证

经济与商务实证研究方法 — 研究生进阶

发布于

2026年5月15日

作业目标

本次作业要求你在交错处理(staggered adoption)框架下,系统比较不同匹配策略与现代 DID 估计量的表现。与本科作业的经典 2×2 DID 不同,你需要面对更贴近现实的政策评估场景:处理在不同时间点分批次进入,且处理效应可能随时间动态变化。

核心任务包括:

  1. 设计一个渐进式处理的数据生成过程(DGP),包含多期面板、异质性处理效应和动态趋势
  2. 比较至少三种匹配策略(如:精确匹配、倾向得分匹配、合成控制匹配)与 DID 的结合效果
  3. 实现至少两种现代 DID 估计量(如 Callaway-Sant’Anna、Sun-Abraham 或 Borusyak-Jaravel-Spiess)作为基准
  4. 通过Monte Carlo 模拟验证各估计量在不同识别条件下的统计性质(偏误、方差、覆盖率)
  5. 进行理论推导,解释模拟结果背后的识别逻辑与偏误来源

本作业对应课程第六至第九讲内容:面板数据、交错 DID、合成控制与因果机器学习前沿。


背景一:从 2×2 DID 到交错处理

经典 DID 假设所有处理单位在同一时间接受处理。但在现实政策评估中,处理往往是渐进实施的:

  • 不同城市在不同年份试点同一政策
  • 不同企业在不同季度采用同一技术
  • 不同个体在不同时间注册同一项目

这种交错处理(staggered adoption)带来了两个核心挑战:

挑战 1:TWFE 的偏误

在交错处理下,传统双向固定效应(TWFE)回归会产生负权重问题(Goodman-Bacon 2021)。早期接受处理的单位会被当作后期接受处理单位的“控制组”,而这些“控制组”实际上已经受到了处理,导致估计量出现偏误。

挑战 2:动态处理效应的异质性

处理效应可能随时间变化(如:短期为正、长期衰减),且不同批次(cohort)的处理效应可能存在异质性。这使得简单的平均处理效应(ATT)难以捕捉完整的政策效果。


背景二:匹配策略在交错处理中的角色

在交错处理框架下,匹配策略需要相应调整:

匹配策略 1:同期匹配( contemporaneous matching)

在每个处理批次进入时,仅使用该时点的未处理单位作为控制池,进行匹配后估计该批次的 ATT。

匹配策略 2:合成控制法(Synthetic Control)

为每个处理单位构建一个由未处理单位加权合成的“虚拟对照”,特别适合处理单位较少、但时间序列较长的情形(Abadie, Diamond & Hainmueller 2010)。

匹配策略 3:滚动匹配(Rolling Matching)

在每个时间点重新进行匹配,确保控制组始终是“尚未处理”的单位,避免使用未来会接受处理的单位作为当前控制组。


背景三:现代 DID 估计量

作为基准比较,你需要实现至少两种现代 DID 估计量:

Callaway & Sant’Anna (2021)

通过“组别-时间”ATT 的构建,避免 TWFE 的负权重问题:

\[ ATT(g,t) = E[Y_t - Y_{g-1} \mid G_g = 1] - E[Y_t - Y_{g-1} \mid C = 1] \]

其中 \(G_g\) 表示在第 \(g\) 期接受处理的组别,\(C\) 表示从未接受处理的组别(clean control)。

Sun & Abraham (2021)

通过交互加权估计量,控制不同处理批次的异质性趋势:

\[ Y_{it} = \sum_{g} \sum_{l \neq -1} \mu_{g,l} \cdot 1\{G_i = g\} \cdot 1\{t - g = l\} + \gamma_i + \lambda_t + \varepsilon_{it} \]

Borusyak, Jaravel & Spiess (2024) — 插补估计量

利用未处理单位的 outcome 预测处理单位的反事实结果,适用于存在从未处理单位的情形。


任务一:设计交错处理的 DGP(30%)

请设计一个多期面板数据的模拟环境。最低要求:

  • 面板结构\(N \geq 500\) 个个体,\(T \geq 10\) 个时期
  • 处理分配:至少 3 个处理批次(cohorts),在不同时间点进入
  • 协变量:至少 2 个可观测协变量 \(X_i\)(至少 1 个连续变量、1 个离散变量)
  • 处理效应:设定动态处理效应 \(\tau_{it}\),可随时间变化
  • 趋势异质性:允许不同批次或不同协变量子群具有不同的趋势

你需要明确写出以下方程:

  1. 处理分配机制\(D_{it} = f(X_i, \alpha_i, \varepsilon_i, t)\)
  2. 潜在结果方程\(Y_{it}(0)\)\(Y_{it}(1)\) 的生成过程
  3. 观测结果\(Y_{it} = D_{it} \cdot Y_{it}(1) + (1-D_{it}) \cdot Y_{it}(0)\)

设计要求

场景 目的 关键设定
场景 A 基准情形:现代 DID 应表现良好 平行趋势成立,存在 never-treated 单位,处理效应同质
场景 B 匹配策略的优势情形 处理分配与协变量相关,存在选择偏误,但条件平行趋势成立
场景 C 匹配策略的局限情形 存在不可观测的时变混淆,或缺乏 clean controls
场景 D 动态效应与异质性 处理效应随时间衰减,不同 cohort 效应不同

至少模拟 1000 次(建议 2000 次以提高精度)。


任务二:实现匹配策略与估计量(25%)

必须实现的估计方法

A. 匹配 + DID 策略(至少选 2 种)

  1. 同期 PSM-DID:在每个 cohort 进入时,使用当时的未处理单位进行倾向得分匹配,然后估计 DID
  2. 滚动 PSM-DID:在每个时期重新匹配,确保控制组始终是尚未处理的单位
  3. 合成控制法(SC):为每个处理单位构建合成控制,计算处理效应
  4. 合成双重差分(Synthetic DID):Arkhangelsky et al. (2021) 的方法,结合合成控制与 DID

B. 现代 DID 估计量(至少选 2 种)

  1. Callaway-Sant’Anna (2021):使用 did 包(R)或 csdid(Stata)
  2. Sun-Abraham (2021):使用 eventstudyinteract(Stata)或手动实现
  3. Borusyak-Jaravel-Spiess (2024):使用 did_imputation(Stata)或手动实现

C. 基准比较

  • 传统 TWFE:作为“反面教材”,展示其在交错处理下的偏误

报告要求

对每种方法,报告:

  • 估计准确性:Bias、RMSE、Median Absolute Error
  • 推断有效性:95% 置信区间覆盖率、标准误 vs 蒙特卡洛标准差
  • 动态效应估计:事件研究图(event-study plot),展示处理前后各期的估计系数
  • 异质性分析:不同 cohort 或不同协变量子群的 ATT 估计

任务三:Monte Carlo 验证与理论推导(30%)

3.1 统计性质验证

针对你的 DGP,严格验证以下理论命题:

命题 1:当存在 never-treated 单位时,Callaway-Sant’Anna 估计量是否一致?通过模拟验证其偏误是否趋近于 0。

命题 2:当平行趋势只在条件于 \(X_i\) 时成立,滚动匹配 DID 是否能恢复一致性?与无条件 DID 比较。

命题 3:合成控制法在什么条件下优于传统匹配?(提示:考虑处理单位数量、donor pool 的相似性)

命题 4:传统 TWFE 在交错处理下的偏误方向与大小。参考 Goodman-Bacon (2021) 的分解,你的 DGP 中哪些比较贡献了负权重?

3.2 理论推导要求

请选择以下至少一个命题进行严格的数学推导

选项 A:推导 Callaway-Sant’Anna ATT(g,t) 的识别条件

在“条件平行趋势”和“无预期效应”假设下,证明:

\[ ATT(g,t) = E[Y_t - Y_{g-1} \mid G_g = 1] - E[Y_t - Y_{g-1} \mid C = 1] \]

能够识别真实的平均处理效应。

选项 B:推导 TWFE 在交错处理下的偏误分解

参考 Goodman-Bacon (2021),证明 TWFE 估计量可以分解为不同 2×2 DID 比较的加权平均,且其中部分权重为负。

选项 C:推导匹配估计量的渐近方差

在特定匹配策略下,推导 ATT 估计量的渐近分布,并讨论 bootstrap 标准误的适用性。

推导要求: - 明确定义所有符号和假设 - 逐步推导,每一步说明依据 - 最终结论与模拟结果相互验证


任务四:实证论文复现或批判(15%)

选择一篇使用交错 DID 或合成控制的学术论文(建议来自 AER、QJE、JPE、Econometrica、JoE、AEJ: Applied 等期刊)。

选项 A:复现(Replication)

如果论文数据公开,尝试: - 使用原文方法复现主要结果 - 使用现代 DID 估计量(如 Callaway-Sant’Anna)重新估计,比较与 TWFE 的差异 - 评估原文的识别策略在现代方法框架下的稳健性

选项 B:批判性评价(Critical Assessment)

如果数据不公开,进行严格的识别评价: - 论文是否讨论了交错处理下 TWFE 的潜在偏误? - 平行趋势假设是否可信?作者如何检验? - 是否存在 clean controls?如果没有,估计量可能面临什么问题? - 根据你的模拟经验,该论文的结论在何种条件下可信,何种条件下脆弱?


提交要求

1. 研究报告(PDF + Markdown 源文件)

报告应包含: - DGP 设计:完整的数据生成方程,说明每个参数的经济/统计含义 - 理论推导:至少一个命题的严格证明 - 模拟结果:表格 + 图形,包含事件研究图、偏误-方差权衡图、覆盖率表 - 结果解读:不仅报告“哪个方法更好”,更要解释“为什么”以及“在什么条件下” - 论文评价/复现:详细的评估或复现报告

字数要求:4000-8000 字(不含代码和附录)

2. 可复现代码

  • 提供完整的、可独立运行的代码(Stata do-file、R script、Python notebook 均可)
  • 在代码开头设置随机种子(set seednp.random.seed
  • 代码应能一键生成所有表格和图形
  • 如使用外部包,请在开头列出安装命令

3. AI 使用声明

如果使用 AI 辅助编程、推导或写作,请提交: - 使用的 AI 工具列表 - 关键 prompt 示例 - AI 输出的原始内容 + 你的修改说明 - 最终版本中哪些内容完全由你完成

注意:AI 使用不扣分,但未披露将被视为学术不端。


评分标准

维度 权重 评分要点
DGP 设计 20% 交错处理设定合理,动态效应与异质性设计清晰,场景覆盖充分
方法实现 25% 匹配策略与现代 DID 实现正确,代码可复现,图形规范
理论推导 25% 推导严格,假设明确,结论与模拟相互验证
Monte Carlo 分析 20% 统计指标完整,事件研究图清晰,对偏误来源有深入解释
论文复现/评价 10% 评价深入,能结合模拟经验指出原论文的稳健性与脆弱性

建议工具与包

Stata

  • csdid(Callaway-Sant’Anna)
  • eventstudyinteract(Sun-Abraham)
  • did_imputation(Borusyak-Jaravel-Spiess)
  • synth(合成控制)
  • sdid(Synthetic DID)
  • reghdfe(高维固定效应,用于基准 TWFE)
  • psmatch2teffects psmatch(倾向得分匹配)

R

  • did(Callaway-Sant’Anna)
  • fixest(固定效应与事件研究)
  • MatchIt(匹配)
  • Synth(合成控制)
  • synthdid(Synthetic DID)

Python

  • pandas, numpy, statsmodels
  • linearmodels(面板数据)
  • 可手动实现匹配与现代 DID 估计量

学术诚信

  • 可以与同学讨论思路,但代码、推导和报告必须独立完成
  • 引用他人代码或方法时明确标注来源
  • AI 辅助需如实披露(见上文)
  • 严禁抄袭

参考文献

核心方法论文献:

  • Goodman-Bacon, A. (2021). Difference-in-differences with variation in treatment timing. Journal of Econometrics, 225(2), 254-277.
  • Callaway, B., & Sant’Anna, P. H. (2021). Difference-in-differences with multiple time periods. Journal of Econometrics, 225(2), 200-230.
  • Sun, L., & Abraham, S. (2021). Estimating dynamic treatment effects in event studies with heterogeneous treatment effects. Journal of Econometrics, 225(2), 175-199.
  • Borusyak, K., Jaravel, X., & Spiess, J. (2024). Revisiting event study designs: Robust and efficient estimation. Review of Economic Studies, 91(6), 3253-3285.
  • Abadie, A., Diamond, A., & Hainmueller, J. (2010). Synthetic control methods for comparative case studies. Journal of the American Statistical Association, 105(490), 493-505.
  • Arkhangelsky, D., Athey, S., Hirshberg, D. A., Imbens, G. W., & Wager, S. (2021). Synthetic difference-in-differences. American Economic Review, 111(12), 4088-4118.

综述与教材:

  • Cunningham, S. (2021). Causal Inference: The Mixtape. Ch. 9 (Difference-in-Differences).
  • Roth, J., Sant’Anna, P. H., Bilinski, A., & Poe, J. (2023). What’s trending in difference-in-differences? A synthesis of the recent econometrics literature. Journal of Econometrics.

祝研究愉快!如有问题,请在课程讨论区或答疑时间交流。