当前位置 : 主页 > 编程语言 > python >

python – 如何通过多列过滤pandas数据帧

来源:互联网 收集:自由互联 发布时间:2021-06-25
要按单列过滤数据框(df),如果我们考虑男性和女性的数据,我们可能会: males = df[df[Gender]=='Male'] 问题1 – 但如果数据跨越多年并且我只想看2014年的男性怎么办? 在其他语言中,我可能会
要按单列过滤数据框(df),如果我们考虑男性和女性的数据,我们可能会:

males = df[df[Gender]=='Male']

问题1 – 但如果数据跨越多年并且我只想看2014年的男性怎么办?

在其他语言中,我可能会这样做:

if A = "Male" and if B = "2014" then

(除了我想这样做并在新的dataframe对象中获取原始数据帧的子集)

问题2.如何在循环中执行此操作,并为每个独特的年份和性别集创建数据框对象(即:2013年男性,2013年女性,2014年男性和2014年女性的df

for y in year:

for g in gender:

df = .....
使用&运算符,不要忘记用()包装子语句:

males = df[(df[Gender]=='Male') & (df[Year]==2014)]

使用for循环将数据帧存储在dict中:

from collections import defaultdict
dic={}
for g in ['male', 'female']:
  dic[g]=defaultdict(dict)
  for y in [2013, 2014]:
    dic[g][y]=df[(df[Gender]==g) & (df[Year]==y)] #store the DataFrames to a dict of dict

编辑:

getDF的演示:

def getDF(dic, gender, year):
  return dic[gender][year]

print genDF(dic, 'male', 2014)
网友评论