【CDA干货】双重差分模型在数据分析的应用
三重差分法即再做一次双重差分消除实验与对照组差异带来的增量,剩下的即干预带来的增量,通过一个例子来说明,假设某银行App针对A市的客户(实验组)进行金融产品费率打折,其他城市的客户不打折,想衡量其带来的转化增量,直观的会选用A市的非客户作为对照组,但由于购买客户和非购买客户的购买力本身具有差异,平行趋势假设无法满足。比如,探究金融产品费率打折对用户购买行为影响的场景,对用户选择费率优惠程度做预测,
作者简介:
赵敏昊,CDA持证人,三年数据分析师经验
双重差分模型是一种广泛应用于政策评估和因果推断的统计方法,尤其适用于分析干预措施或政策实施前后的变化效果。该模型通过比较处理组和对照组在政策实施前后的变化差异,来识别政策干预的净效应,从而为政策制定者提供科学依据。
在工作中,ABTest能解决很多策略效果评估的问题,但不是所有场景都适合ABTest,那么如何推断策略对用户干预的效果呢?双重差分模型可以解决该情况下的应用。
一、双重差分模型介绍
双重差分模型在因果推断应用的层面,通常涉及三个主题,包括群体因果效应估计、个体因果效应估计以及因果关系的发现。

双重差分模型是群体因果效应估计的一个重要方法,用于协助找到干预价值高的群体。
其中,观察学习表示因客观限制,样本中的因变量不受研究者的控制,基于样本进行推导分析,在随机试验无法实施的情况下使用。
比如研究客户购买金融产品的客单价,若随机选定一批企业主用户,则不符合随机前提。还有可以在不清楚分流的情况下,研究金融营销权益工具对用户购买转化的提升。

自然实验表示个体被非观察者控制的因素暴露或控制条件下的一种实验研究方法,是一种观察实验。
面板数据表示数据与时间序列综合的一种数据类型,比如有一条线为时序数据,其横切面为截面数据(时序数据为用户A过去一年每天的金融产品购买情况,截面数据为某一天所有用户的购买情况)。

双重差分法通过利用观察学习的数据,计算自然实验中“实验组”与“对照组”在干预下增量的差距。可以理解为对随机分配实验的一种模拟,在没有随机实验的情况下去验证因果关系。
以某金融产品数据分析为例,将全部的样本数据分为两组,一组是受到干预影响(实验组),另一组没有受到同一干预影响(对照组)。选定一个需要观测的目标指标(比如金融产品购买转化率及留存率),一般是业务中的KPI。

第一次差分过程,分别对干预前后进行两次差分得到两组差值,代表实验组与对照组在干预前后分别的相对关系;第二次差分过程,对两组差值进行第二次差分,从而消除实验组与对照组原生的差异,最终得到干预带来的净效应。在一定程度上减轻了选择偏差和外因带来的影响。

二、模型应用满足假设
双重差分法的计算过程即实验组干预前后的均值的差减去对照组干预前后均值的差。如果希望得到的结果是准确的,数据需要满足三个假设:
线性关系假设:认为因变量与结果变量存在线性关系。
个体处理稳定性假设:包括一致性,个体接受处理后所导致的潜在结果是唯一的。互不干预,个体接受处理后导致的潜在结果不受其他影响。
平行趋势假设:在不干预情况下,前后两个时间点实验组与对照组的差值一致。
通常可以通过画图或者计算的方式验证样本是否满足假设,比如客户领取了金融产品的费率折扣券,不会因为其他客户也有而减少其购买意愿。

同质化人群的构建方法可以通过构建相对的同质人群使满足平行趋势假设。倾向得分匹配的目的为从干预的人群和未干预的人群里找到两批人符合平行趋势假设,在这两个人群中寻找两批同质的人。
比如,探究金融产品费率打折对用户购买行为影响的场景,对用户选择费率优惠程度做预测,分数相近的用户是同质的,选出分数相同的用户后再验证平行趋势假设。

随着研究的深入,双重差分模型也在不断发展和完善。例如,三重差分模型通过引入第三个虚拟变量,进一步控制了地区间的异质性影响,从而提高了模型的准确性。此外,多期双重差分模型也被用于分析政策实施后不同时间段的效果变化。
三重差分法即再做一次双重差分消除实验与对照组差异带来的增量,剩下的即干预带来的增量,通过一个例子来说明,假设某银行App针对A市的客户(实验组)进行金融产品费率打折,其他城市的客户不打折,想衡量其带来的转化增量,直观的会选用A市的非客户作为对照组,但由于购买客户和非购买客户的购买力本身具有差异,平行趋势假设无法满足。

此时可以引入一个城市B市。计算B市购买客户与非购买客户,最后用A市的数据减去B市得到净效应。

在实际应用中,双重差分模型通常结合Stata、R等统计软件进行回归分析。例如在Stata中,可以通过生成交互项和固定效应模型来估计政策干预的效果,并通过平行趋势检验和安慰剂检验来验证模型的稳健性。

双重差分模型是一种强大的数据分析工具,能够帮助研究者在复杂的数据环境中识别政策干预的因果效应。尽管该模型存在一定的局限性,但通过合理的假设检验和模型扩展,可以有效提高其应用的准确性和可靠性。
更多推荐
所有评论(0)