当前位置 : 主页 > 编程语言 > python >

真香啊,推荐 6 个 Python 数据分析神器

来源:互联网 收集:自由互联 发布时间:2022-06-15
用 Python 处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的。 今天我给大家分享6个好玩高效的操作,帮助大家提高效率。喜欢记得收藏、关注、点赞。 一、P


用 Python 处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的。

今天我给大家分享6个好玩高效的操作,帮助大家提高效率。喜欢记得收藏、关注、点赞。

一、Pandas Profiling

​​Pandas Profiling​​​提供数据的一个整体报告,是一个帮助我们理解数据的过程。它可以简单快速地对​​Pandas​​的数据框数据进行探索性数据分析。

其实,​​Pandas​​​中​​df.describe()​​​和​​df.info()​​​函数也可以实现数据探索过程第一步。但它们只提供了对数据非常基本的概述。而​​Pandas​​​中的​​Profiling​​​功能简单通过一行代码就能显示大量信息,同时还能生成交互式​​HTML​​报告。

对于给定的数据集,Pandas中的​​profiling​​包计算了以下统计信息:

真香啊,推荐 6 个 Python 数据分析神器_数据分析

由​​Pandas Profiling​​包计算出的统计信息包括直方图、众数、相关系数、分位数、描述统计量、其他信息包括类型、单一变量值、缺失值等。

安装

用​​pip​​​和​​conda​​即可,使用方法很简单,如下:

df = pd.read_csv('titanic/train.csv')

pandas_profiling.ProfileReport(df)

用法

以titanic数据集来演示​​profiling​​的功能。

df = pd.read_csv('titanic/train.csv')

pandas_profiling.ProfileReport(df)

真香啊,推荐 6 个 Python 数据分析神器_数据分析_02

真香啊,推荐 6 个 Python 数据分析神器_python_03

除了导入库之外只需要一行代码,就能显示数据报告的详细信息,包括必要的图表。

还可以使用以下代码将报告导出到交互式​​HTML​​文件中。

profile = pandas_profiling.ProfileReport(df)

profile.to_file(outputfile="Titanic data profiling.html")

真香啊,推荐 6 个 Python 数据分析神器_数据挖掘_04

二、pretty print

​​pprint​​​是Python中的内置模块。它能够以格式清晰,可读性强​​漂亮​​​格式打印任意数据结构。一个例子对比下​​print​​​和​​pprint​​。

my_dict = {'Student_ID': 34,'Student_name' : 'Tom', 'Student_class' : 5,

'Student_marks' : {'maths' : 92,

'science' : 95,

'social_science' : 65,

'English' : 88}

print

{'Student_ID': 34, 'Student_name': 'Tom', 'Student_class': 5, 'Student_marks': {'maths': 92, 'science': 95, 'social_science': 65, 'English': 88}}

pprint

'Student_marks': {'English': 88,

'maths': 92,

'science': 95,

'social_science': 65},

可以清楚看到​​pprint​​的优势之处,数据结构一目了然啊。

三、Python Debugger

交互式调试器也是一个神奇的函数,如果在运行代码单元格时出现报错,可以在新行中键入​​%debug​​​运行它。这将打开一个交互式调试环境,自动转到报错发生的位置,并且还可以检查程序中分配的变量值并执行操作。要退出调试器,按​​q​​。比如下面这个例子。

大家应该能看出​​x+y​​​肯定会报错,因为二者不是一个类型,无法进行运算操作。然后我们敲入​​%debug​​。

这时会出现对话框让我们互交式输入命令,比如我们可以像下面这样做。

真香啊,推荐 6 个 Python 数据分析神器_数据_05

四、Cufflinks

这个在之前也介绍过,对于数据探索的可视化分析超级好用,低代码量便可生成漂亮的可视化图形。下面举一个例子:

​​cufflinks​​​在​​plotly​​​的基础上做了一进一步的包装,方法统一,参数配置简单。其次它还可以结合​​pandas​​​的​​dataframe​​随意灵活地画图。可以把它形容为"pandas like visualization"。

比如下面的​​lins线图​​。

cf.set_config_file(offline=True)

cf.datagen.lines(1,500).ta_plot(study='sma',periods=[13,21,55])

真香啊,推荐 6 个 Python 数据分析神器_html_06

再比如​​box箱型图​​。

cf.datagen.box(20).iplot(kind='box',legend=False)

真香啊,推荐 6 个 Python 数据分析神器_python_07

看着这动态图就爱不释手啊,有木有!

五、Pyforest

这是一个能让你偷懒的​​import​​​神器,可以提前在配置文件里写好要导入的三方库,这样每次编辑脚本的时候就省去了开头的一大堆​​import 各种库​​,对于有常用和固定使用库的朋友来说无疑也是提高效率的工具之一。

​​pyforest​​​支持大部分流行的数据科学库,比如​​pandas​​​,​​numpy​​​,​​matplotlib​​​,​​seaborn​​​,​​sklearn​​​,​​tensorflow​​​等等,以及常用的辅助库如​​os​​​,​​sys​​​,​​re​​​,​​pickle​​等。

此用法对于自己频繁调试很方便,但对于那些频繁跨环境比如和其它人共享脚本调试的时候就不是很好用了,因为别人不一定使用它。

真香啊,推荐 6 个 Python 数据分析神器_数据_08

六、notebook的笔记高亮

此方法仅适用于​​Jupyter notebook​​中,当我们想高亮笔记,让笔记变得美观的时候,这个方法非常的香。

笔记的高亮的颜色根据不同情况分为几种,前端的同学一看就明白,区别就是每种颜色代码的​​class​​​类型不一样,其它只要在​​div​​标签中写内容就好。下面看下用法。

蓝色代表info

<div class="alert alert-block alert-info">

<b>Tip:</b> Use blue boxes (alert-info) for tips and notes.

If it’s a note, you don’t have to include the word “Note”.

真香啊,推荐 6 个 Python 数据分析神器_数据挖掘_09

黄色代表warning

<div class="alert alert-block alert-warning">

<b>Example:</b> Yellow Boxes are generally used to include additional examples or mathematical formulas.

真香啊,推荐 6 个 Python 数据分析神器_数据挖掘_10

绿色代表success

<div class="alert alert-block alert-success">

Use green box only when necessary like to display links to related content.

真香啊,推荐 6 个 Python 数据分析神器_python_11

红色代表danger

<div class="alert alert-block alert-danger">

It is good to avoid red boxes but can be used to alert users to not delete some important part of code etc.

真香啊,推荐 6 个 Python 数据分析神器_数据_12

这里有个小提示提示下,如果你直接复制到​​jupyter notebook​​​中可能会报错,因为默认是代码的格式,所以你需要选中单元格按​​Esc​​​变成可切换模式,然后再按​​Y​​​切换成文本模式。这时候再运行​​shift+ok​​就ok了。看下面这个例子。

真香啊,推荐 6 个 Python 数据分析神器_数据挖掘_13

欢迎老铁们多多分享和点个在看!

上一篇:Python 3.11 性能测评超 3.10 近 64%
下一篇:没有了
网友评论