Stata对数据缺失值的处理方法

2021-11-23

17915

　　Stata对数据缺失值有什么处理方法?怎么去解决数据缺失呢?下面艾思科蓝小编给大家分享一下stata对数据缺失值的处理方法。

　　对于数据中的异常值，我们通常的处理方式有以下几种:

Stata对数据缺失值的处理方法.png

　　方法一:直接删除----适合缺失值数量较小，并且是随机出现的，删除它们对整体数据影响不大的情况。

　　方法二:使用一个全局常量填充---譬如将缺失值用“Unknown”等填充，但是效果不一定好，因为算法可能会把它识别为一个新的类别，一般很少用。

　　方法三:使用均值或中位数代替----优点:不会减少样本信息，处理简单。缺点:当缺失数据不是随机数据时会产生偏差.对于正常分布的数据可以使用均值代替，如果数据是倾斜的，使用中位数可能更好。

　　方法四:插补法

　　1)随机插补法----从总体中随机抽取某个样本代替缺失样本

　　2)多重插补法----通过变量之间的关系对缺失数据进行预测，利用蒙特卡洛方法生成多个完整的数据集，在对这些数据集进行分析，最后对分析结果进行汇总处理

　　3)热平台插补----指在非缺失数据集中找到一个与缺失值所在样本相似的样本(匹配样本)，利用其中的观测值对缺失值进行插补。这样做的优点是:简单易行，准去率较高。缺点:变量数量较多时，通常很难找到与需要插补样本完全相同的样本。但我们可以按照某些变量将数据分层，在层中对缺失值实用均值插补

　　4)拉格朗日差值法和牛顿插值法(简单高效，数值分析里的内容)

　　方法五:建模法

　　可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。例如，利用数据集中其他数据的属性，可以构造一棵判定树，来预测缺失值的值。

　　以上方法各有优缺点，具体情况要根据实际数据分分布情况、倾斜程度、缺失值所占比例等等来选择方法。一般而言，建模法是比较常用的方法，它根据已有的值来预测缺失值，准确率更高。

　　本期的艾思科蓝资讯就分享到这里了，学海无涯，我们的每一天都在学习，艾思科蓝一直伴随在您的学习之路上。