当前位置 : 主页 > 编程语言 > python >

简单好用,分享 4 款 Pandas 自动数据分析神器

来源:互联网 收集:自由互联 发布时间:2022-06-18
我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 ​​EDA​​


我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 ​​EDA​​(Exploratory Data Analysis,探索性数据分析)。

目前已经有很多​​EDA​​工具可以自动产出基础的统计数据和图表,​这些在技术交流群也是公认的好工具​。

​【注】文末加入技术交流群​

本文会对比介绍 4 款常用的​​EDA​​工具,几乎要抛弃代码的节奏。​喜欢点赞、收藏、关注。​

正式介绍这些工具之前,先来加载数据集

import numpy as np
import pandas as pd
iris = pd.read_csv('iris.csv')
iris

简单好用,分享 4 款 Pandas 自动数据分析神器_数据处理

​​iris​​​是下面用到的数据集,是一个​​150行 * 4列​​的 DataFrame。

1. PandasGUI

​​PandasGUI​​提供数据预览、筛选、统计、多种图表展示以及数据换。

# 安装
# pip install pandasgui
from pandasgui import show

show(iris)

简单好用,分享 4 款 Pandas 自动数据分析神器_数据挖掘_02

PandasGUI操作界面

​​PandasGUI​​更侧重数据展示,提供了10多种图表,通过可视的方式配置。

但数据统计做的比较简单,没有提供缺失值、相关系数等指标,数据换部分也只开放了一小部分接口。

2. Pandas Profiling

​​Pandas Profiling​​ 提供了整体数据概况、每列的详情、列之间的关图、列之间的相关系数。

# 安装:
# pip install -U pandas-profiling
# jupyter nbextension enable --py widgetsnbextension

from pandas_profiling import ProfileReport

profile = ProfileReport(iris, title='iris Pandas Profiling Report', explorative=True)
profile

简单好用,分享 4 款 Pandas 自动数据分析神器_数据处理_03

Pandas Profiling操作界面

每列的详情包括:缺失值统计、去重计数、最值、平均值等统计指标和取值分布的柱状图。

列之间的相关系数支持Spearman、Pearson、Kendall 和 Phik 4 种相关系数算法。

与 ​​PandasGUI​​​ 相反,​​Pandas Profiling​​没有丰富的图表,但提供了非常多的统计指标以及相关系数。

3. Sweetviz

​​Sweetviz​​​与​​Pandas Profiling​​类似,提供了每列详细的统计指标、取值分布、缺失值统计以及列之间的相关系数。

# 安装
# pip install sweetviz

import sweetviz as sv

sv_report = sv.analyze(iris)
sv_report.show_html()

简单好用,分享 4 款 Pandas 自动数据分析神器_pandas_04

Sweetviz操作界面

​​Sweetviz​​还有有一个非常好的特性是支持不同数据集的对比,如:训练数据集和测试数据集的对比。

简单好用,分享 4 款 Pandas 自动数据分析神器_pandas_05

Sweetviz数据集对比

蓝色和橙色代表不同的数据集,通过对比可以清晰发现数据集之前的差异。

4. dtale

最后重磅介绍​​dtale​​,它不仅提供丰富图表展示数据,还提供了很多交互式的接口,对数据进行操作、换。

简单好用,分享 4 款 Pandas 自动数据分析神器_python_06

dtale操作界面

​​dtale​​的功能主要分为三部分:​数据操作​、​数据可视化​、​高亮显示​。

4.1 数据操作(Actions)

​​dtale​​​将​​pandas​​的函数包装成可视化接口,可以让我们通过图形界面方式来操作数据。

# pip install dtale

import dtale

d = dtale.show(iris)
d.open_browser()

简单好用,分享 4 款 Pandas 自动数据分析神器_数据挖掘_07

Actions

右半部分图是左边图的中文翻译,用的是 Chrome 自动翻译,有些不是很准确。

举一个​数据操作​的例子。

简单好用,分享 4 款 Pandas 自动数据分析神器_python_08

Summarize Data

上图是​Actions​菜单中​Summarize Data​的功能,它提供了对数据集汇总操作的接口。

上图我们选择按照​​species​​​列分组,计算​​sepal_width​​​列的平均值,同时可以看到左下角​​dtale​​​已经自动为该操作生成了​​pandas​​代码。

4.2 数据可视化(Visualize)

提供比较丰富的图表,对每列数据概况、重复行、缺失值、相关系数进行统计和展示。

简单好用,分享 4 款 Pandas 自动数据分析神器_python_09

Visualize

举一个​数据可视化​的例子。

简单好用,分享 4 款 Pandas 自动数据分析神器_pandas_10

Describe

上图是​Visualize​菜单中​Describe​的功能,它可以统计每列的最值、均值、标准差等指标,并提供图表展示。

右侧的​​Code Export​​可以查看生成这些数据的代码。

4.3 高亮显示(Highlight)

对缺失值、异常值做高亮显示,方便我们快速定位到异常的数据。

简单好用,分享 4 款 Pandas 自动数据分析神器_数据挖掘_11

Highlight

简单好用,分享 4 款 Pandas 自动数据分析神器_数据挖掘_12

上图显示了将​​sepal_width​​字段的异常值。

​​dtale​​非常强大,功能也非常多,大家可以多多探索、挖掘。

最后,简单总结一下。如果探索的数据集侧重数据展示,可以选​​PandasGUI​​​;如果只是简单了解基本统计指标,可以选择​​Pandas Profiling​​​和​​Sweetviz​​​;如果需要做深度的数据探索,那就选择​​dtale​​。

技术交流

欢迎载、收藏、有所收获点赞支持一下!

简单好用,分享 4 款 Pandas 自动数据分析神器_pandas_13

目前开通了技术交流群,群友已超过​2000人​,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

  • 方式①、发送如下图片至微信,长按识别,后台回复:加群;
  • 方式③、微信搜索公众号:​Python学习与数据挖掘​,后台回复:加群

简单好用,分享 4 款 Pandas 自动数据分析神器_数据处理_14



网友评论