特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

当前位置 : 主页 > 编程语言 > python >

【Pandas总结】第九节 Pandas_累计与分组 pd.groupby()

来源：互联网收集：自由互联发布时间：2022-10-26

在对较大数据进行分析时，有一项最基本的工作就是：有效的数据累积，比如：求和（sum），平均值(mean)，中位数(median)，最小值(min)，最大值(max)等；这每一项指标都是对原本大数据的

在对较大数据进行分析时，有一项最基本的工作就是：有效的数据累积，比如：求和（sum），平均值(mean)，中位数(median)，最小值(min)，最大值(max)等；这每一项指标都是对原本大数据的一个展现，反映了原本大数据的特征。所以本节主要说明两个问题：1. 求累计值；2. 分组求累计值；

一、数据准备

我们以Titanic 数据为例，来进行说明；所有数据，请参考《泰坦尼克数据集》

import pandas as pd path = r'./titanic.csv' df = pd.read_csv(path)

在这里插入图片描述

二、累计值计算

2.1 df.describe()

pandas中提供了一个非常方便的方法df.describe()，来列出常用的统计值，包括：计数值（count），平均值（mean），标准差(std)，最小值(min)，最大值(max)等，举例如下：

df.describe()

在这里插入图片描述

2.2 常用统计值

常用统计值包括计数值，计数值（count），平均值（mean），标准差(std)，最小值(min)，最大值(max)等，举例如下：

若不指定具体的列，则Pandas会默认计算所有的可计算的列：

df.mean() #平均值

在这里插入图片描述我们详细讲解指定列的情况：

a = df['Age'].mean() b = df['Age'].max() c = df['Age'].min() d = df['Age'].std() e = df['Age'].median() f = df['Age'].quantile(0.05) print('平均值为:',a) print('最大值为:',b) print('最小值为:',c) print('标准差为:',d) print('中位数为:',e) print('5%分位数为:',f)

在这里插入图片描述

常用的统计值有以下：

函数描述 count() 计数值 first() 第一项的值 last() 最后一项的值 mean() 平均值 median() 中位数 min() 最小值 max() 最大值 std() 标准差 var() 方差 mad 均值绝对偏差 prod() 所有项的乘积 sum() 所有项的和

三、分组 pd.groupby()

当我们直接使用统计值时，可以知道整体状况，比如所有人的年龄的平均值，但是比如我们想要知道：男性和女性的年龄分别是多少。这时我们就需要使用 pd.groupby().

pd.groupby() 的工作原理就是：分割，应用，组合，如下图所示：

备注：这张图来自《Python 数据科学手册》，是很经典的一张图。在这里插入图片描述

我们统计所有列的平均值，要求：按性别进行区分；代码如下：

df.groupby('Sex').mean()

在这里插入图片描述

如果我们只关注男性与女性的平均年龄，代码如下：

df.groupby('Sex')['Age'].mean()

在这里插入图片描述

如果我们关注男女年龄的更多统计信息，代码如下：

df.groupby('Sex')['Age'].describe()

在这里插入图片描述

还可以通过.unstack()，变换输出的形状；

df.groupby('Sex')['Age'].describe().unstack()

在这里插入图片描述

四、更多的使用方法aggregate(),filter(),transform(),apply()

4.1 aggregate()

多个统计值，比如我们需要同时看男女的平均年龄与最大年龄、最小年龄，举例如下：

df.groupby('Sex')['Age'].aggregate(['mean','min','max'])

在这里插入图片描述

4.2 filter()

过滤的使用，可以过滤掉统计值满足一定条件的所有数据，例如：我们将数据按照性别分成两大类（即：男女），然后这两组数据里，我们只取年龄平均值大于30的数据，我们可以看到：所有的男性被选中，所有的女性都被过滤掉了；举例如下：

def filter_func(x): return x['Age'].mean() > 30 df.groupby('Sex').filter(filter_func)

从下面的截图可以看到，性别里只剩下男性了；说明女性的年龄平均值不到30；

在这里插入图片描述

4.3 transform()

df.groupby('Sex')['Age'].transform(lambda x:x-x.mean())

在这里插入图片描述

4.4 apply()

这里举例为：我们看一下每个人的票价占总票价的比例，代码如下：

def func(x): x['Fare'] = x['Fare']/x['Fare'].sum() return x df.groupby('Sex')['Name','Fare','Sex'].apply(func)

在这里插入图片描述

上一篇：drf字段自动填充当前用户信息
下一篇：没有了

相关文章

网友评论

相关栏目

最近更新

热门文章