在stata中我们如何处理异常值数据?
    2021-11-23
    4615

      如何处理stata中的异常值数据?有哪些方法可以解决?以下是本期艾思云课堂小编给大家分享的处理stata异常值的方法,希望能够帮到你。

    在stata中我们如何处理异常值数据?.png

      在stata中我们如何处理这些异常值呢?

      方法一:直接删除

      这只一种非常粗暴的方法。由于异常值对于统计推断的影响巨大,这种做法目前已经不多采用了,尤其当样本量规模不大甚至比较小的时候。当然如果数据量样本足够大而异常值并不多的情况下,慎行。

      方法二:替换成均值或者中位数

      这是一种非常偷懒的做法,如果是做回归那么就在回归时改成用中位数回归,不过这也确实是一种很不错的办法。

      方法三:将异常值视为缺失值,交给缺失值处理方法来处理

      缺失值的处理方式本文前面已经详细介绍,在此不再赘述。

      方法四:winsorize命令

      winsorize是用相应分位数的值替代分位数之外的值,而不是删掉,这样可以最大限度的保存数据信息。主要是根据已有文献来的,如果别人用winsorize你也要用,否则你的结论和别人的没有可比性。目前来看,至少在金融领域,使用winsorize比较普遍,删除异常值的做法越来越少的被使用了。Stata中有现成的winsorize程序,打开Stata,在命令行输入ssc install winsor2,replace,自动安装 winsor2。安装完之后,winsor2命令的基本格式为:

      winsor2 变量名 变量名, replace cuts(1 99)

      p()里的数字可以自己设,一般是0.01。当然,0.01就是在1%的异常变量,也可以设定5%,就是p里面写成0.05。这个命令把最高1%和最低1%替换成离他们最近的值,不删除或变成缺失。

      这个命令也可以将识别出来的异常值直接删除,命令形式如下:

      winsor2 变量名 变量名, replace cuts(199) trim

      这里插一句:数据清理永无止境,需要不断反复,有时候觉得数据很干净了,没问题了,过一段时间之后还是会发现一些小错误,有的能被修正过来,而有的只能保持错误状态。这个世界上很难找到完美的调查和数据,因此每次做清理时都要假定这个变量有问题,而不是这个变量没问题。

      本期的艾思科蓝资讯就分享到这里了,学海无涯,我们的每一天都在学习,艾思科蓝一直伴随在您的学习之路上。

    Stata面板数据计量分析高级培训班.jpg

    分享:
    收藏 0
    点赞 0
    业务咨询
    刘老师:18922434589
    商务合作
    石老师:13922152147
    客服邮箱:customer_services@ais.cn
    平台简介
    艾思云课堂是广州科奥信息技术有限公司旗下学术知识服务平台,为科研人员提供包括学术会议直播/点播、研究方法、学术技能、院士课堂、科研问答等知识服务,帮助科研人员全方位提升科研服务。

    公众号

    小程序

    广州科奥信息技术有限公司 版权所有。
    Copyright©2019 All rights reserved 粤ICP备16087321号
    • 在线客服
    • 微信客服
      扫码添加
      微信客服
    • 学术测评
      测一测你和Nature大神距离有多远?
    • 微信公众号
      扫码关注
      云课堂公众号
    • 视频教程