特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

pandas中的缺失值处理

来源：互联网收集：自由互联发布时间：2022-06-23

在真实的数据中，往往会存在缺失的数据。pandas在设计之初，就考虑了这种缺失值的情况，默认情况下，大部分的计算函数都会自动忽略数据集中的缺失值，同时对于缺失值也提供了一

在真实的数据中，往往会存在缺失的数据。pandas在设计之初，就考虑了这种缺失值的情况，默认情况下，大部分的计算函数都会自动忽略数据集中的缺失值，同时对于缺失值也提供了一些简单的填充和删除函数，常见的几种缺失值操作技巧如下

1. 默认的缺失值

当需要人为指定一个缺失值时，默认用None和np.nan来表示，用法如下

>>> import numpy as np
>>> import pandas as pd
# None被自动识别为NaN
>>> pd.Series([1, 2, None])
0 1.0
1 2.0
2 NaN
# np.nan被自动识别为NaN
>>> pd.Series([1, 2, np.nan])
0 1.0
1 2.0
2 NaN
dtype: float64

2. 缺失值的判断

为了针对缺失值进行操作，常常需要先判断是否有缺失值的存在，通过isna和notna两个函数可以快速判断，用法如下

>>> a = pd.Series([1, 2, None, 3])
>>> a
0 1.0
1 2.0
2 NaN
3 3.0
dtype: float64
# is.na 方法，如果为NaN, 返回True, 否则返回False
>>> a.isna()
0 False
1 False
2 True
3 False
dtype: bool

# notnat方法，如果为NaN, 返回False, 否则返回True
>>> a.notna()
0 True
1 True
2 False
3 True
dtype: bool

3. 缺失值的填充

通过fillna方法可以快速的填充缺失值，有两种填充方式, 用法如下

>>> a = pd.Series([1, 2, None, 3])
>>> a
0 1.0
1 2.0
2 NaN
3 3.0
dtype: float64
# value参数，表示用一个指定的值来替换缺失值
>>> a.fillna(value=1)
0 1.0
1 2.0
2 1.0
3 3.0
dtype: float64
# method参数，指定一种方法来填充缺失值
# pad方法，表示用NaN前面一个值来进行填充
>>> a.fillna(method = 'pad')
0 1.0
1 2.0
2 2.0
3 3.0
dtype: float64
# bfill法，表示用NaN后面一个值来进行填充
>>> a.fillna(method = 'bfill')
0 1.0
1 2.0
2 3.0
3 3.0
dtype: float64

fillna也可以对DataFrame进行操作，示意如下

>>> df = pd.DataFrame({'A':[1, 2, None], 'B':[1, np.nan, 3]})
>>> df
A B
0 1.0 1.0
1 2.0 NaN
2 NaN 3.0
# 对每一列的NaN值，依次用对应的均值来填充
>>> df.fillna(df.mean())
A B
0 1.0 1.0
1 2.0 2.0
2 1.5 3.0

4. 缺失值的删除

通过dropna方法来快速删除NaN值，用法如下

>>> a.dropna()
0 1.0
1 2.0
dtype: float64
# dropna操作数据框时，可以设置axis参数的值
# 默认为0，表示去除包含了NaN的行
# axis=1,表示去除包含了NaN的列
>>> df = pd.DataFrame({'A':[1, 2, None], 'B':[1, np.nan, 3]})
>>> df
A B
0 1.0 1.0
1 2.0 NaN
2 NaN 3.0
>>> df.dropna()
A B
0 1.0 1.0
>>> df.dropna(axis=0)
A B
0 1.0 1.0
>>> df.dropna(axis=1)
Empty DataFrame
Columns: []
Index: [0, 1, 2]

pandas中的大部分运算函数在处理时，都会自动忽略缺失值，这种设计大大提高了我们的编码效率。同时，通过简单上述几种简单的缺失值函数，可以方便地对缺失值进行相关操作。

·end·

pandas中的缺失值处理_公众号

一个只分享干货的

生信公众号

上一篇：pandas中的字符串处理函数
下一篇：没有了

pandas中的缺失值处理

相关文章