seaborn提供了一个快速展示数据库中列元素分布和相互关系的函数,即pairplot函数,该函数会自动选取数据框中值为数字的列元素,通过方阵的形式展现其分布和关系,其中对角线用于展
seaborn提供了一个快速展示数据库中列元素分布和相互关系的函数,即pairplot函数,该函数会自动选取数据框中值为数字的列元素,通过方阵的形式展现其分布和关系,其中对角线用于展示各个列元素的分布情况,剩余的空间则展示每两个列元素之间的关系,基本用法如下
>>> df = pd.read_csv("penguins.csv")>>> sns.pairplot(df)
>>> plt.show()
输出结果如下
函数自动选了数据框中的3列元素进行可视化,对角线上,以直方图的形式展示每列元素的分布,而关于对角线堆成的上,下半角则用于可视化两列之间的关系,默认的可视化形式是散点图,该函数常用的参数有以下几个
#### 1. corner
上下三角矩阵区域的元素实际上是重复的,通过corner参数,可以控制只显示图形的一半,避免重复,用法如下
>>> sns.pairplot(df, corner=True)>>> plt.show()
输出结果如下
#### 2. kind和diag_kind
这两个参数用于指定上下三角区域和对角线区域的可视化方式,用法如下
>>> sns.pairplot(df, kind='reg', diag_kind='kde')>>> plt.show()
输出结果如下
#### 3、 x_vars和y_vars
默认情况下,程序会对数据框中所有的数值列进行可视化,通过x_vars和y_vars可以用列名称来指定我们需要可视化的列,用法如下
>>> sns.pairplot(df, x_vars=['bill_length_mm', 'bill_depth_mm'], y_vars=['bill_length_mm', 'bill_depth_mm'])>>> plt.show()
输出结果如下
#### 4. hue
hue参数用于分组变量的颜色映射,用法如下
>>> sns.pairplot(df, hue='species')>>> plt.show()
输出结果如下
对于pairplot函数而言,我们还可以单独指定上下三角区域和对角线区域的可视化形式,示例如下
>>> g = sns.pairplot(df, hue='species')>>> g.map_lower(sns.kdeplot)
>>> g.map_diag(sns.histplot)
>>> g.map_upper(sns.regplot)
>>> plt.show()
输出结果如下
通过pairpplot函数,可以同时展示数据框中的多个数值型列元素的关系,在快速探究一组数据的分布时,非常的好用。
·end·
一个只分享干货的
生信公众号