分享

【原创】数据科学系列——自相关举例、检验与处理

 至道从容 2016-10-09
题记:一个好的数据公司应该是深刻理解数据需求和定义,具有数据顶层架构能力的公司。而不是只会盲目搜集、加工、分析的公司。同理,一个优秀的数据分析师应该了解数据缺失的机制和形式,找到最优的处理方式,从而最大限度地提高数据预处理的质量。
自相关现象举例
在研究的过程中经常会遇到数据自相关的现象,由于自相关的存在,使得根据样本数据估计的回归线上下摆动幅度增大,导致参数估计变得不准确。常见的情况有:

(1)时间序列数据中的自相关:由于经济活动通常具有某种连续性或持久性,自相关现象在时间序列中比较常见。如相邻两年的GDP增长率、通货膨胀率。


又比如,某个意外事件或新政策的效应(私募基金监管的八条底线、“3+3”的合格私募投顾条件等对私募行业的影响)需要逐步地随时间释放出来。

(2)截面数据中的自相关:一般来说,截面数据不容易出现自相关,但相邻的观测单位之间也可能存在“溢出效应”,这种自相关也称为“空间自相关”。


比如,相邻地区的农业产量受到类似天气变化的影响;同一社区内的房屋价格存在相关性;同一个投顾下的同策略不同基金业绩存在相关性。

(3)对数据的人为处理:如果数据中包含移动平均数、内插值或季节调整时,则从理论上即可判断存在自相关。


例如,对于私募基金信披不规范问题,通常对于缺失值进行替代法或几何插值法处理,可能导致基金的净值或收益率存在更强的自相关性。需要注意的是,统计局提供的某些数据可能已经事先经过了这些人为处理。

(4)设定误差:如果模型设定中遗漏了某个自相关的解释变量,并被纳入到扰动项中,则会引起扰动项的自相关性。这种由于设定误差而导致的自相关,即便在截面数据中也可能存在。


例如,通常在基金行业或股票市场的CAPM模型中的扰动项就存在自相关性,于是便产生的多因子模型选股和多因子模型选基的方式,其目的无非是为了挖出更多的解释变量,缓解由于设定误差而导致的自相关问题,进行更准确的alpha提纯和业绩归因等。

自相关检验

1、画图
设模型残差,做残差散点图如下图所示:
若大部分点落在第1,3象限,则认为εt存在正的自相关;
若大部分点落在第2,4象限,则认为εt存在负的自相关;
2、DW检验
缺点:只能检验一阶自相关,而且必须在解释变量严格外生性的情况下才成立。
3、LM检验(也称BG检验)
DW统计量只适用于一阶自相关检验,而对于高阶自相关检验并不适用。利用BG统计量可建立一个适用性更强的自相关检验方法,既可检验一阶自相关,也可检验高阶自相关。BG检验是通过一个辅助回归式完成的,具体步骤如下:
对于多元回归模型
考虑误差项为n阶自回归形式
其中Vt为随机项,符合各种假定条件。零假设为
这表明μt不存在n阶自相关。由于扰动项{μt}不可观测,并引入所有解释变量,考虑以下辅助回归:
估计上式,并计算可决系数R^2.构造LM统计量,
T是式(1)的可决系数。在零假设成立条件下,LM统计量渐进服从

分布。如果原假设成立,LM统计量的值将很小,小于临界值。



自相关的处理
如果经过检验确认存在自相关,则大致有以下四种处理方法。
1、使用“OLS+异方差自相关稳健的标准误”,即在存在异方差与自相关的情况下也成立的标准误。这种方法被称为“Newey-West估计法”,它只改变标准误的估计值,并不改变回归系数的估计值。
2、使用“OLS+聚类稳健的标准误”,如果样本观测值可以分为不同的“聚类”,在同一聚类里的观测值互不相关,而不同聚类之间的观测值不相关,这种样本称为“聚类样本”。

如果将观测值按聚类的归属顺序排序,则扰动项的协方差矩阵为“块对角”。此时,仍采用OLS来估计系数,但需使用“聚类稳健的标准误”。在处理面板数据时,经常采用聚类稳健的标准误。
3、使用可行广义最小二乘法(FGLS)
4、修改模型设定
在许多情况下,存在自相关的深层原因式模型本身的设定有误,比如,遗漏了自相关的解释变量;或将动态模型(即解释变量中包含被解释变量的滞后值)误设为静态模型,而后者也可以视为遗漏了解释变量。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多