FE / RE 模型可统一表述为:
y_it = u_i + x_it*b + e_it (1)
对于FE,个体效应 u_i 被视为一组解释变量,为非随机变量,即 N-1 个虚拟变量;
对于RE,个体效应 u_i被视为干扰项的一部分,因此是随机变量,假设其服从正态分布,即 u_i~N(0, sigma_u^2);
在上述两个模型的设定中,e_it 都被视为“干干净净的”干扰项,也就是我们学习OLS第一讲时那个背负着众多假设条件,但长相极为俊俏的干扰项,e_it~N(0, sigma_e^2)。
需要注意的是,在 FE 模型中,只有一个干扰项 e_it,它可以随公司和时间而改变,所有个体差异都采用 u_i 来捕捉。而在 RE 模型中,其实有两个干扰项:u_i 和 e_it,差别在于,第一种干扰项不随时间改变(这也是所谓的“个体效应”的含义),而第二类干扰项可以随时间改变。
因为上述对 FE 和 RE 中个体效应 u_i 的假设之差异,二者的估计方法亦有差异。FE可直接采用OLS估计,而RE则必须使用GLS才能获得更为有效的估计量。
再来看 xtgls 和 xtpcse 这两个命令所对应的模型:
在Greene(2000, chp15) 中,他并未把此类模型称为”Panel data model”,而是称为“Systems of Regression Equations Model”。模型设定如下:
y_it = a + x_it*b + e_it (2)
可以看出,在这个模型设定中,只有一个不带下标的常数项 a。因此,你可以认为这就是一个简单的线性回归模型,只是我们所有分析的数据是“面板资料”,而不是“截面资料”。为了能反映出面板的特征,就必须在干扰项上做文章。
假设模型以公司为单位表示如下(其中,y_1 是一个 TX1 维列向量,表示第一家公司):
* | y_1 | | X_1 | | e_1 |
* | y_2 | | X_2 | | e_2 |
* | . | | . | | . |
* | . | = | . | * b + | . |
* | . | | . | | . |
* | y_n | | X_n | | e_n |
当假设存在截面异方差时,即不同的公司面临的干扰项具有不同的波动性(Var(e_1) != Var(e_2)),则干扰项的方差-协方差矩阵可表示为:
*– 截面异方差
* E[e_i*e_i’] = [s_i^2] \\ 只写出其中一个元素,下同
*
* | s1^2 0 … 0 |
* | 0 s2^2 … 0 |
* | . |
* V = | . |
* | . |
* | 0 0 … sn^2 |
若考虑截面相关,即公司A和公司B面临的干扰可能存在相关性,则V矩阵中的非对角元素不再为零:
*– 截面相关
* E[e_i*e_i’] = s_ij^2
*
* | s_11 s_12 … s_1n |
* | s_21 s_22 … s_2n |
* | . |
* V = | . | * sigma^2
* | . |
* | s_n1 s_n2 … s_nn |
如考虑序列相关,则对于同一家公司而言,不同时间上的干扰项存在相关性,那么每家公司将对应一个TxT的方块矩阵,该矩阵的非对角元素不为零,可简写如下(不严谨):
*– 序列相关
* E[e_i*e_i’] = s_i^2 * M_i
*
* | s1^2*M_1 0 … 0 |
* | 0 s2^2*M_2 … 0 |
* | . |
* V = | . |
* | . |
* | 0 0 … sn^2*M_n |
* GLS 估计
* b = [X’V^{-1}*X]^{-1}[X’V^{-1}y]
* Var(b) = [X’V^{-1}*X]^{-1}
小结:
整体而言,xtgls 和 xtpcse 这两个命令是我们学习的GLS估计方法的一个综合应用,重点都在干扰项的方差协方差矩阵的设定上做文章。而FE/RE 模型则单独列出一个 u_i来,以便充分反应所谓的“个体效应”。
两套模型并无优劣之分,只是建模的方法有所差异而已。至于选择哪一类,完全决定于你如何去理解和设定不同公司之间的差异和相关性,以及公司内部不同年度之间的相关性
评论前必须登录!
注册