目录 Python常用的数据清洗方法 重复观测处理 缺失值处理 数据过滤 数据填充 插值法 异常值处理 Python常用的数据清洗方法 在数据处理的过程中,一般都需要进行数据的清洗工作,如数
- Python常用的数据清洗方法
- 重复观测处理
- 缺失值处理
- 数据过滤
- 数据填充
- 插值法
- 异常值处理
在数据处理的过程中,一般都需要进行数据的清洗工作,如数据集是否存在重复、是否存在缺失、数据是否具有完整性和一致性、数据中是否存在异常值等。当发现数据中存在如上可能的问题时,都需要有针对性地处理,本文介绍如何识别和处理重复观测、缺失值和异常值。
重复观测处理重复观测是指观测行存在重复的现象,重复观测的存在会影响数据分析和挖掘结果的准确性,所以在数学分析和建模之前,需要进行观测的重复性检验,如果存在重复观测,还需要进行重复项的删除。
检测数据集的是否重复,pandas 使用duplicated方法,该方法返回的是数据行每一行的检验结果,即每一行返回一个bool值,再使用drop_duplicates方法移除重复值。
import pandas as pd dataset= pd.read_csv("red_wine_repetition.csv") print("是否存在重复值:",any(dataset.duplicated())) #输出:True dataset.drop_duplicates(inplace=True) dataset.to_csv('red_wine_repetition2.csv',index=False) #保存移除重复值后的数据集缺失值处理
数据缺失在大部分数据分析应用中都很常见,pandas使用浮点值NaN表示浮点或非浮点数组中的缺失数据,python内置的None值也会被当做缺失值处理。
pandas使用isnull方法检测是否为缺失值,检测对象的每个元素返回一个bool值
from numpy import NaN from pandas import Series data=Series([5, None, 15, NaN, 25]) print(data.isnull()) #输出每个元素的检测结果 print('是否存在缺失值:',any(data.isnull())) #输出 :True
缺失值的处理可以采用三种方法:过滤法、填充法和插值法。过滤法又称删除法,是指当缺失的观测比例非常低时(如5%以内),直接删除存在缺失的观测;或者当某变量缺失的观测比例非常高时(如85%【文章出处:香港多ip站群服务器 http://www.558idc.com/hkzq.html提供,感恩】