Python_去重 all_user_merchant . drop_duplicates ( inplace = True ) Data Transformation Removing Duplicates 7.2 数据转换 # 本章到⽬前为⽌介绍的都是数据的重排。另⼀类重要操作则是过 # 滤、清理以及其他的
Python_去重
all_user_merchant.drop_duplicates(inplace=True)Data Transformation
Removing Duplicates
7.2 数据转换
# 本章到⽬前为⽌介绍的都是数据的重排。另⼀类重要操作则是过
# 滤、清理以及其他的转换⼯作
# 7.2 数据转换
# 本章到⽬前为⽌介绍的都是数据的重排。另⼀类重要操作则是过
# 滤、清理以及其他的转换⼯作
data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
'k2': [1, 1, 2, 3, 3, 4, 4]})
data
k1 k2
0 one 1
1 two 1
2 one 2
3 two 3
4 one 3
5 two 4
6 two 4
# 移除重复数据
# 表示各⾏
# 是否是重复⾏(前⾯出现过的⾏):
data.duplicated()
0 False
1 False
2 False
3 False
4 False
5 False
6 True
dtype: bool
data.drop_duplicates()
k1 k2
0 one 1
1 two 1
2 one 2
3 two 3
4 one 3
5 two 4
data['v1'] = range(7)
data.head()
# 只希望根据k1列过滤重复项
data.drop_duplicates(['k1'])
k1 k2 v1
0 one 1 0
1 two 1 1
# duplicated和drop_duplicates默认保留的是第⼀个出现的值组
# 合。传⼊keep='last'则保留最后⼀个
data.drop_duplicates(['k1', 'k2'], keep='last')
k1 k2 v1
0 one 1 0
1 two 1 1
2 one 2 2
3 two 3 3
4 one 3 4
6 two 4 6