课程
Stata中如何识别数据的异常值?
2021-11-24
5611
Stata中如何识别数据的异常值?我们如何使用stata来识别数据的异常值呢?数据的异常值是指什么?接下来艾思云课堂小编给大家分享一下stata中如何识别数据的异常值,希望能给大家一点帮助。
异常值(outlier)是指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。通常面对样本时需要做整体数据观察,以确认样本数量、均值、极值、方差、标准差以及数据范围等。其中的极值很可能是异常值,此时如何处理异常值会直接影响数据结果。那么我们在Stata中应该如何识别异常值呢?
方法一:简单的统计分析
拿到数据后可以对数据进行一个简单的描述性统计分析,譬如最大最小值可以用来判断这个变量的取值是否超过了合理的范围,如客户的年龄为-20岁或200岁,显然是不合常理的,为异常值。这种方法我们可以在Stata中summarize命令来实现。summarize命令用来计算及展示一组单变量的概要统计,若后面不指定变量,则计算当前数据集中所有变量的概要统计。若觉得某个变量的极值不符合常识,可选择detail选项,则显示变量的额外统计量,包括skewness、kurtosis、4个最小值、4个最大值,以及各种百分比。这就很容易以查看极值找到异常值。
二:简单画图
也可以在Stata中采用scatter命令,通过画散点图的方法,直接观察是否存在异常值。
方法三:箱形图
这里的具体操作过程,可以查看Stata中的graph box命令来更多了解。
方法四:3δ原则
当数据服从正态分布:根据正态分布的定义可知,距离平均值3δ之外的概率为 P(|x-μ|>3δ) <= 0.003 ,这属于极小概率事件,在默认情况下我们可以认定,距离超过平均值3δ的样本是不存在的。因此,当样本距离平均值大于3δ,则认定该样本为异常值。
当数据不服从正态分布:当数据不服从正态分布,可以通过远离平均距离多少倍的标准差来判定,多少倍的取值需要根据经验和实际情况来决定。
以上就是本期艾思科蓝小编分享的关于“stata命令”的所有内容啦,如需了解更多相关信息,请点击艾思科蓝关注我们,期待我们的再会。
收藏
0
点赞
0