stata数据清洗教程
    2021-11-24
    2855

      stata数据清洗教程。在我们遇到数据异常的时候,应该怎么使用stata清理数据呢?本期艾思云课堂小编给大家带来了一期stata对异常数据的清洗教程,希望能帮到大家。

    stata数据清洗教程.png

      对于数据中的异常值,我们通常的处理方式有以下几种:

      方法一:直接删除----适合缺失值数量较小,并且是随机出现的,删除它们对整体数据影响不大的情况。

      Stata会区分缺失值:数值型变量缺失以点(.)表示,字符型变量确实以双引号("")表示,不要与空字符型变量(“ ”)搞混。

      方法二:使用一个全局常量填充---譬如将缺失值用“Unknown”等填充,但是效果不一定好,因为算法可能会把它识别为一个新的类别,一般很少用。

      方法三:使用均值或中位数代替----优点:不会减少样本信息,处理简单。缺点:当缺失数据不是随机数据时会产生偏差.对于正常分布的数据可以使用均值代替,如果数据是倾斜的,使用中位数可能更好。

      方法四:插补法

      1)随机插补法----从总体中随机抽取某个样本代替缺失样本

      2)多重插补法----通过变量之间的关系对缺失数据进行预测,利用蒙特卡洛方法生成多个完整的数据集,在对这些数据集进行分析,最后对分析结果进行汇总处理

      3)热平台插补----指在非缺失数据集中找到一个与缺失值所在样本相似的样本(匹配样本),利用其中的观测值对缺失值进行插补。这样做的优点是:简单易行,准去率较高。缺点:变量数量较多时,通常很难找到与需要插补样本完全相同的样本。但我们可以按照某些变量将数据分层,在层中对缺失值实用均值插补

      4)拉格朗日差值法和牛顿插值法(简单高效,数值分析里的内容)

      方法五:建模法

      可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。例如,利用数据集中其他数据的属性,可以构造一棵判定树,来预测缺失值的值。

      以上方法各有优缺点,具体情况要根据实际数据分分布情况、倾斜程度、缺失值所占比例等等来选择方法。一般而言,建模法是比较常用的方法,它根据已有的值来预测缺失值,准确率更高。

      以上就是本期艾思科蓝小编分享的关于“stata命令”的所有内容啦,如需了解更多相关信息,请点击艾思科蓝关注我们,期待我们的再会。

    Stata面板数据计量分析高级培训班.jpg

    分享:
    收藏 0
    点赞 0
    业务咨询
    刘老师:18922434589
    商务合作
    石老师:13922152147
    客服邮箱:customer_services@ais.cn
    平台简介
    艾思云课堂是广州科奥信息技术有限公司旗下学术知识服务平台,为科研人员提供包括学术会议直播/点播、研究方法、学术技能、院士课堂、科研问答等知识服务,帮助科研人员全方位提升科研服务。

    公众号

    小程序

    广州科奥信息技术有限公司 版权所有。
    Copyright©2019 All rights reserved 粤ICP备16087321号
    • 在线客服
    • 微信客服
      扫码添加
      微信客服
    • 学术测评
      测一测你和Nature大神距离有多远?
    • 微信公众号
      扫码关注
      云课堂公众号
    • 视频教程