当前位置 : 主页 > 编程语言 > python >

Python常用的数据清洗方法详解

来源:互联网 收集:自由互联 发布时间:2023-08-17
目录 Python常用的数据清洗方法 重复观测处理 缺失值处理 数据过滤 数据填充 插值法 异常值处理 Python常用的数据清洗方法 在数据处理的过程中,一般都需要进行数据的清洗工作,如数
目录
  • Python常用的数据清洗方法
  • 重复观测处理
  • 缺失值处理
    • 数据过滤
    • 数据填充
    • 插值法
  • 异常值处理

    Python常用的数据清洗方法

    在数据处理的过程中,一般都需要进行数据的清洗工作,如数据集是否存在重复、是否存在缺失、数据是否具有完整性和一致性、数据中是否存在异常值等。当发现数据中存在如上可能的问题时,都需要有针对性地处理,本文介绍如何识别和处理重复观测、缺失值和异常值。

    重复观测处理

    重复观测是指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数学分析和建模之前,需要进行观测的重复性检验,如果存在重复观测,还需要进行重复项的删除。

    在这里插入图片描述

    检测数据集的是否重复,pandas 使用duplicated方法,该方法返回的是数据行每一行的检验结果,即每一行返回一个bool值,再使用drop_duplicates方法移除重复值。

    import pandas as pd
    dataset= pd.read_csv("red_wine_repetition.csv")
    print("是否存在重复值:",any(dataset.duplicated()))     #输出:True
    dataset.drop_duplicates(inplace=True)
    dataset.to_csv('red_wine_repetition2.csv',index=False)   #保存移除重复值后的数据集

    缺失值处理

    数据缺失在大部分数据分析应用中都很常见,pandas使用浮点值NaN表示浮点或非浮点数组中的缺失数据,python内置的None值也会被当做缺失值处理。
    pandas使用isnull方法检测是否为缺失值,检测对象的每个元素返回一个bool值

    from numpy import NaN
    from pandas import Series
    data=Series([5, None, 15, NaN, 25])
    print(data.isnull())    #输出每个元素的检测结果
    print('是否存在缺失值:',any(data.isnull()))  #输出 :True

    缺失值的处理可以采用三种方法:过滤法、填充法和插值法。过滤法又称删除法,是指当缺失的观测比例非常低时(如5%以内),直接删除存在缺失的观测;或者当某变量缺失的观测比例非常高时(如85%【文章出处:香港多ip站群服务器 http://www.558idc.com/hkzq.html提供,感恩】

    上一篇:OpenAI Function Calling特性示例详解
    下一篇:没有了
    网友评论