就业培训反而有害吗?

考虑这样一个问题:

政府推出了一项就业培训项目,项目的参与者记为“实验组”,未参与者记为“控制组”,如何来估计该就业培训项目对参与者收入的影响?

一个天真的做法是直接对比实验组与控制组的未来收入或就业状况,或者简单以是否参与为虚拟变量,对总体进行回归。

可是这种方法真的对么?

试想:什么样人会参加就业培训?肯定是失业或者低收入者居多。什么样的人不会参加就业培训?岗位好收入高的人不会参加就业培训。如果直接按照上述方法进行估计,很有可能你会发现参加就业培训的收入比未参加更低,所以得出结论就业培训反而是有害的。

再考虑一个问题:

我们的小明,在周围的同学都选择的就业之后,选择了攻读博士学位。经历了五年的博士生涯之后,小明找到了一份不错的工作。我们如何来帮小明估计,读了博士项目的小明和没有读博士学位的小明(假想),收入会有怎样的差别?可是小明已经读了博士,我们怎么才能估计出他要是不读博士,收入会是多少呢?

在第一个问题中,实验组和控制组的初始条件不同,于是存在“选择偏差”问题。对于第二个问题,如果依然采用同样的方法来估计,势必也会对结果的估计产生偏误。

一种叫做倾向得分匹配(Propensity Score Matching)的方法可以解决这样的问题。

倾向得分匹配,简称PSM,是目前国际上最为流行的统计学方法之一。广泛应用于某项治疗,政策,或者其他事件的效果评估。他的基本思路是这样的,以第二个问题为例,我们从小明的一大堆没有读博士项目的同学中,对每个人读博士项目的概率进行估计,从中选出和小明读博士概率近似的同学小刚。我们对实验组的每一个“小明”都匹配到控制组的“小刚”,就能对这两组样本进行比较研究了。

具体来说:以虚拟变量Di={0,1}表示个体是否读博士,1为参与,0为未参与。

记因变量为yi,该问题中为未来收入,yi有两种状态。即:

其中,y1i表示个体读博士的未来收入

y0i表示个体未读博士的未来收入

而我们感兴趣的统计量为“参与者平均处理效应”(Average Treatment Effect on the Treated,简记为ATT/ATET),即在小明读了博士之后,这个经历对他收入的影响:

在估计ATT的过程中,我们采用倾向得分匹配的方法。将K维自变量X的信息压缩为在[0,1]之间的一维信息,来进行匹配。

定义个体i的倾向匹配得分为,在给定自变量X的情况下,个体i进入实验组的条件概率,即:

在利用倾向得分匹配计算ATT/ATET时,一般有以下几个步骤:

(1)选择自变量X,尽量将可能影响y0i, y1i, Di的变量都包括进来

(2)计算倾向得分,一般用probit模型或者logit模型估计

(3)进行倾向得分匹配

以下以一个药物治疗效果分析的实例,来演示如何用统计分析软件Stata实现PSM分析。

该数据来源于
http://ssc.wisc.edu/sscc/pubs/files/psm ,包含4个变量:治疗指标 t(表示是否参与治疗),自变量 x1, x2, 以及结果 y。其中接受治疗的概率和 x1, x2 正相关,x1, x2 与治疗结果 y 正相关。

[1] 导入数据

use http://ssc.wisc.edu/sscc/pubs/files/psm

[2] 利用Probit模型估计ATET

teffects psmatch (y) (t x1 x2, probit), atet

结果如下:

结果表明,该治疗会使得结果变量 y 上升 1.019685

如果采用logit模型估计,代码如下:

teffects psmatch (y) (t x1 x2), atet

结果为:

表明利用Logit模型估计出来治疗会使得 y 上升 0.9603507

以上我们发现,PSM是一种解决选择偏差的好方法。然而,该方法仍有一些局限性,比如:

(1)PSM 通常对样本容量要求比较高已得到更高质量的匹配

(2)PSM要求处理组与控制组的倾向得分有较大的共同取值范围(common support);否则,将丢失较多观测值,导致剩下的样本不具有代表性。

除了以上所说的PSM可以应用于医学,政策评估等学科外,该方法在地理方面的应用还依然有很大的扩展空间。只要是评估一项干预的影响,都可以尝试用这种方法解决。比如,评估鸟巢的建设对周边各种要素(比如房价)的影响,一项规划项目的实施效果评估,类似的应用场景还有许多,等待我们去发现。

参考资料:

[1] 陈强,《高级计量经济学及stata应用》

[2] https://www.ssc.wisc.edu/sscc/pubs/stata_psmatch.htm