Stata清理异常值数据时需要注意什么？

2021-11-23

4416

　　Stata清理异常值的数据的时候需要注意什么问题呢?本期艾思科蓝小编给大家分享几个关于这个问题的想法，希望能够帮到大家。

Stata清理异常值数据时需要注意什么？.png

　　一、首先明确，所研究的问题是否需要一个真正的长期面板

　　在数据调研过程中，样本丢失是一种非常常见的现象。比如原样本家庭访户的去世，原企业在原有领域的退出等等。然而依据我们所要研究的主题的差异，我们需要对数据样本进行选择。如果只是研究X与Y之间的因果性问题，那么所有样本可用。而如果要研究样本某个特征的长期趋势，那么我们可能需要只研究数据库中存在的长期样本。比如刘志军(2017)中的研究主题是收入流动性的长期趋势，那么他便在在所有调查的样本数据中，只保留有长期追踪调查的样本，根据研究的需要构造三个平衡面板数据。一是1989-2000年期间含有在9个调查年份中同时都出现的样本量;二是1989-2000年期间同时含有5个调查年份数据;三是2000-2011年期间同时含有所有5个调查年份数据。

　　二、需要用权重对长周期调查中的数据磨损加以调整

　　每个数据库在数据调查过程中，都采用了特定的抽样方法，如CHNS采用的是多阶段分层整群随机抽样方法。这里对于不同的地区和样本进行了权重赋予，因此我们在重新使用过程中，需要利用这些权重对调查出的数据进行重新调整，以保证数据的随机性。这一过程是当下很多研究者没有进行的程序，但是实际上不进行真的是不行的。

　　在进行完上面的过程之后，我们的数据已经基本能用了，但是如果研究的主题是样本某特征的长期趋势，我们可能还要进行下一步工作:

　　三、如果有余力，可以将调查缺失年份的数据补齐

　　很多数据库的调查年份的间隔并不是等距的，中间可能有多少一两年的差别。这时候为了能够更好地反映样本某特征的长期演化趋势，可以进一步我们采取一种方法将非调查年度的某特征数据补充完整:首先根据期初和期末收入计算出在此时间跨度中的每个样本i的年均收入增长速度g;接着再利用前一轮次的调查数据和增长速度计算缺失年份的数据来补充数据有助于反映某特征数据的全貌。

　　本期的艾思科蓝资讯就分享到这里了，学海无涯，我们的每一天都在学习，艾思科蓝一直伴随在您的学习之路上。

热门推荐