作业 1：交错处理、匹配策略与 Monte Carlo 验证

经济与商务实证研究方法 — 2026 春季学期

发布于

2026年5月15日

作业目标

本次作业要求你在第 3 周经典 DiD 与第 4 周现代 DiD 的基础上，进入交错处理（staggered adoption）框架，系统比较不同匹配策略与现代 DID 估计量的表现。你需要面对更贴近现实的政策评估场景：处理在不同时间点分批次进入，且处理效应可能随时间动态变化。

核心任务包括：

设计一个渐进式处理的数据生成过程（DGP），包含多期面板、异质性处理效应和动态趋势
比较至少两种匹配或合成策略（如：同期 PSM-DID、滚动 PSM-DID、合成控制或合成双重差分）与 DID 的结合效果
实现至少两种现代 DID 估计量（如 Callaway-Sant’Anna、Sun-Abraham 或 Borusyak-Jaravel-Spiess）作为基准
通过Monte Carlo 模拟验证各估计量在不同识别条件下的统计性质（偏误、方差、覆盖率）
进行理论推导，解释模拟结果背后的识别逻辑与偏误来源

本作业对应第 3 周与第 4 周讲义内容：面板数据与固定效应、经典 DiD、交错 DID、匹配类 DiD、合成控制、Goodman-Bacon 分解与现代 DID 估计量。

背景一：从 2×2 DID 到交错处理

经典 DID 假设所有处理单位在同一时间接受处理。但在现实政策评估中，处理往往是渐进实施的：

不同城市在不同年份试点同一政策
不同企业在不同季度采用同一技术
不同个体在不同时间注册同一项目

这种交错处理（staggered adoption）带来了两个核心挑战：

挑战 1：TWFE 的偏误

在交错处理下，传统双向固定效应（TWFE）回归会产生负权重问题（Goodman-Bacon 2021）。早期接受处理的单位会被当作后期接受处理单位的“控制组”，而这些“控制组”实际上已经受到了处理，导致估计量出现偏误。

挑战 2：动态处理效应的异质性

处理效应可能随时间变化（如：短期为正、长期衰减），且不同批次（cohort）的处理效应可能存在异质性。这使得简单的平均处理效应（ATT）难以捕捉完整的政策效果。

背景二：匹配策略在交错处理中的角色

在交错处理框架下，匹配策略需要相应调整：

匹配策略 1：同期 PSM-DID

在每个处理批次进入时，仅使用该时点尚未处理或从未处理的单位作为控制池，在倾向得分或关键协变量上匹配后估计该批次的 ATT。

匹配策略 2：合成控制与合成双重差分

合成控制为处理单位构建由未处理单位加权形成的“虚拟对照”（Abadie, Diamond & Hainmueller 2010）；合成双重差分进一步结合单位权重、时期权重与 DiD 结构（Arkhangelsky et al. 2021）。

匹配策略 3：滚动匹配（Rolling Matching）

在每个时间点重新进行匹配，确保控制组始终来自尚未处理或从未处理的单位，避免使用已经处理的单位作为控制组。

背景三：现代 DID 估计量

作为基准比较，你需要实现至少两种现代 DID 估计量：

Callaway & Sant’Anna (2021)

通过“组别-时间”ATT 的构建，避免 TWFE 的负权重问题：

\[ ATT(g,t) = E[Y_t - Y_{g-1} \mid G_g = 1] - E[Y_t - Y_{g-1} \mid C = 1] \]

其中 \(G_g\) 表示在第 \(g\) 期接受处理的组别，\(C\) 表示从未接受处理的组别（clean control）。

Sun & Abraham (2021)

通过交互加权估计量，控制不同处理批次的异质性趋势：

\[ Y_{it} = \sum_{g} \sum_{l \neq -1} \mu_{g,l} \cdot 1\{G_i = g\} \cdot 1\{t - g = l\} + \gamma_i + \lambda_t + \varepsilon_{it} \]

Borusyak, Jaravel & Spiess (2024) — 插补估计量

利用未处理观测的 outcome 预测处理单位的反事实结果，可使用从未处理单位或尚未处理时期提供的 clean controls。

任务一：设计交错处理的 DGP（30%）

请设计一个多期面板数据的模拟环境。最低要求：

面板结构：\(N \geq 500\) 个个体，\(T \geq 10\) 个时期
处理分配：至少 3 个处理批次（cohorts），在不同时间点进入
协变量：至少 2 个可观测协变量 \(X_i\)（至少 1 个连续变量、1 个离散变量）
处理效应：设定动态处理效应 \(\tau_{it}\)，可随时间变化
趋势异质性：允许不同批次或不同协变量子群具有不同的趋势

你需要明确写出以下方程：

处理分配机制：\(D_{it} = f(X_i, \alpha_i, \varepsilon_i, t)\)
潜在结果方程：\(Y_{it}(0)\) 和 \(Y_{it}(1)\) 的生成过程
观测结果：\(Y_{it} = D_{it} \cdot Y_{it}(1) + (1-D_{it}) \cdot Y_{it}(0)\)

设计要求：

场景	目的	关键设定
场景 A	基准情形：现代 DID 应表现良好	平行趋势成立，存在 never-treated 单位，处理效应同质
场景 B	匹配策略的优势情形	处理分配与协变量相关，存在选择偏误，但条件平行趋势成立
场景 C	匹配策略的局限情形	存在不可观测的时变混淆，或缺乏 clean controls
场景 D	动态效应与异质性	处理效应随时间衰减，不同 cohort 效应不同

至少模拟 1000 次（建议 2000 次以提高精度）。

任务二：实现匹配策略与估计量（25%）

必须实现的估计方法

A. 匹配 + DID 策略（至少选 2 种）

同期 PSM-DID：在每个 cohort 进入时，使用当时的未处理单位进行倾向得分匹配，然后估计 DID
滚动 PSM-DID：在每个时期重新匹配，确保控制组始终是尚未处理的单位
合成控制法（SC）：为每个处理单位构建合成控制，计算处理效应
合成双重差分（Synthetic DID）：Arkhangelsky et al. (2021) 的方法，结合合成控制与 DID

B. 现代 DID 估计量（至少选 2 种）

Callaway-Sant’Anna (2021)：使用 did 包（R）或 csdid（Stata）
Sun-Abraham (2021)：使用 eventstudyinteract（Stata）或手动实现
Borusyak-Jaravel-Spiess (2024)：使用 did_imputation（Stata）或手动实现

C. 基准比较

传统 TWFE：作为“反面教材”，展示其在交错处理下的偏误

报告要求

对每种方法，报告：

估计准确性：Bias、RMSE、Median Absolute Error
推断有效性：95% 置信区间覆盖率、标准误 vs 蒙特卡洛标准差
动态效应估计：事件研究图（event-study plot），展示处理前后各期的估计系数
异质性分析：不同 cohort 或不同协变量子群的 ATT 估计

任务三：Monte Carlo 验证与理论推导（30%）

3.1 统计性质验证

针对你的 DGP，严格验证以下理论命题：

命题 1：当存在 never-treated 单位时，Callaway-Sant’Anna 估计量是否一致？通过模拟验证其偏误是否趋近于 0。

命题 2：当平行趋势只在条件于 \(X_i\) 时成立，滚动匹配 DID 是否能恢复一致性？与无条件 DID 比较。

命题 3：合成控制法在什么条件下优于传统匹配？（提示：考虑处理单位数量、donor pool 的相似性）

命题 4：传统 TWFE 在交错处理下的偏误方向与大小。参考 Goodman-Bacon (2021) 的分解，你的 DGP 中哪些比较贡献了负权重？

3.2 理论推导要求

请选择以下至少一个命题进行严格的数学推导：

选项 A：推导 Callaway-Sant’Anna ATT(g,t) 的识别条件

在“条件平行趋势”和“无预期效应”假设下，证明：

\[ ATT(g,t) = E[Y_t - Y_{g-1} \mid G_g = 1] - E[Y_t - Y_{g-1} \mid C = 1] \]

能够识别真实的平均处理效应。

选项 B：推导 TWFE 在交错处理下的偏误分解

参考 Goodman-Bacon (2021)，证明 TWFE 估计量可以分解为不同 2×2 DID 比较的加权平均，且其中部分权重为负。

选项 C：推导匹配估计量的渐近方差

在特定匹配策略下，推导 ATT 估计量的渐近分布，并讨论 bootstrap 标准误的适用性。

推导要求： - 明确定义所有符号和假设 - 逐步推导，每一步说明依据 - 最终结论与模拟结果相互验证

任务四：实证论文复现或批判（15%）

选择一篇使用交错 DID 或合成控制的学术论文（建议来自 AER、QJE、JPE、Econometrica、JoE、AEJ: Applied 等期刊）。

选项 A：复现（Replication）

如果论文数据公开，尝试： - 使用原文方法复现主要结果 - 使用现代 DID 估计量（如 Callaway-Sant’Anna）重新估计，比较与 TWFE 的差异 - 评估原文的识别策略在现代方法框架下的稳健性

选项 B：批判性评价（Critical Assessment）

如果数据不公开，进行严格的识别评价： - 论文是否讨论了交错处理下 TWFE 的潜在偏误？ - 平行趋势假设是否可信？作者如何检验？ - 是否存在 clean controls？如果没有，估计量可能面临什么问题？ - 根据你的模拟经验，该论文的结论在何种条件下可信，何种条件下脆弱？

提交要求

1. 研究报告（PDF + Markdown 源文件）

报告应包含： - DGP 设计：完整的数据生成方程，说明每个参数的经济/统计含义 - 理论推导：至少一个命题的严格证明 - 模拟结果：表格 + 图形，包含事件研究图、偏误-方差权衡图、覆盖率表 - 结果解读：不仅报告“哪个方法更好”，更要解释“为什么”以及“在什么条件下” - 论文评价/复现：详细的评估或复现报告

字数要求：4000-8000 字（不含代码和附录）

2. 可复现代码

提供完整的、可独立运行的代码（Stata do-file、R script、Python notebook 均可）
在代码开头设置随机种子（set seed 或 np.random.seed）
代码应能一键生成所有表格和图形
如使用外部包，请在开头列出安装命令

3. AI 使用声明

如果使用 AI 辅助编程、推导或写作，请提交： - 使用的 AI 工具列表 - 关键 prompt 示例 - AI 输出的原始内容 + 你的修改说明 - 最终版本中哪些内容完全由你完成

注意：AI 使用不扣分，但未披露将被视为学术不端。

评分标准

维度	权重	评分要点
DGP 设计	20%	交错处理设定合理，动态效应与异质性设计清晰，场景覆盖充分
方法实现	25%	匹配策略与现代 DID 实现正确，代码可复现，图形规范
理论推导	25%	推导严格，假设明确，结论与模拟相互验证
Monte Carlo 分析	20%	统计指标完整，事件研究图清晰，对偏误来源有深入解释
论文复现/评价	10%	评价深入，能结合模拟经验指出原论文的稳健性与脆弱性

建议工具与包

Stata

csdid（Callaway-Sant’Anna）
eventstudyinteract（Sun-Abraham）
did_imputation（Borusyak-Jaravel-Spiess）
synth（合成控制）
sdid（Synthetic DID）
reghdfe（高维固定效应，用于基准 TWFE）
psmatch2 或 teffects psmatch（倾向得分匹配）

R

did（Callaway-Sant’Anna）
fixest（固定效应与事件研究）
MatchIt（匹配）
Synth（合成控制）
synthdid（Synthetic DID）

Python

pandas, numpy, statsmodels
linearmodels（面板数据）
可手动实现匹配与现代 DID 估计量

学术诚信

可以与同学讨论思路，但代码、推导和报告必须独立完成
引用他人代码或方法时明确标注来源
AI 辅助需如实披露（见上文）
严禁抄袭

参考文献

核心方法论文献：

Goodman-Bacon, A. (2021). Difference-in-differences with variation in treatment timing. Journal of Econometrics, 225(2), 254-277.
Callaway, B., & Sant’Anna, P. H. (2021). Difference-in-differences with multiple time periods. Journal of Econometrics, 225(2), 200-230.
Sun, L., & Abraham, S. (2021). Estimating dynamic treatment effects in event studies with heterogeneous treatment effects. Journal of Econometrics, 225(2), 175-199.
Borusyak, K., Jaravel, X., & Spiess, J. (2024). Revisiting event study designs: Robust and efficient estimation. Review of Economic Studies, 91(6), 3253-3285.
Abadie, A., Diamond, A., & Hainmueller, J. (2010). Synthetic control methods for comparative case studies. Journal of the American Statistical Association, 105(490), 493-505.
Arkhangelsky, D., Athey, S., Hirshberg, D. A., Imbens, G. W., & Wager, S. (2021). Synthetic difference-in-differences. American Economic Review, 111(12), 4088-4118.

综述与教材：

Cunningham, S. (2021). Causal Inference: The Mixtape. Ch. 9 (Difference-in-Differences).
Roth, J., Sant’Anna, P. H., Bilinski, A., & Poe, J. (2023). What’s trending in difference-in-differences? A synthesis of the recent econometrics literature. Journal of Econometrics.

祝研究愉快！如有问题，请在课程讨论区或答疑时间交流。