特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

【可视化分析案例】用python分析B站Top100排行榜数据

来源：互联网收集：自由互联发布时间：2022-05-30

案例标题：用python可视化分析，B站Top100排行榜数据。分析流程：一、数据读取二、数据概览三、数据清洗四、可视化分析·相关性分析-散点图（scatter）·得分分布-饼图（pie）·各指标分

案例标题：用python可视化分析，B站Top100排行榜数据。分析流程：一、数据读取二、数据概览三、数据清洗四、可视化分析 ·相关性分析-散点图（scatter） ·得分分布-饼图（pie） ·各指标分布-箱形图（boxplot） ·视频作者分析-词云图（wordcloud）

一、数据源
二、数据读取
三、数据概览
四、数据清洗
五、可视化分析
- 5.1 相关性分析（Correlation）
- 5.2 饼图（Pie）
- 5.3 箱形图（Boxplot）
- 5.4 词云图（wordcloud）
六、同步讲解视频

一、数据源

之前，我分享过一期爬虫，用python爬取Top100排行榜：

最终数据结果，是这样的：
TOP100数据

在此数据基础上，做python可视化分析。

二、数据读取

首先，读取数据源：

# 读取csv数据
df = pd.read_csv(csv)

三、数据概览

用shape查看数据形状：

# 查看数据形状
df.shape

用head查看前n行：

# 查看前5行
df.head(5)

用info查看列信息：

# 查看列信息
df.info()

用describe查看统计性分析：

# 描述性统计分析
df.describe()

描述性统计

四、数据清洗

查看是否存在空值：

# 查看空值
df.isna().any()

每列都是False，没有空值。

查看是否存在重复值：

#查看重复值
df.duplicated().any()

False代表没有重复值。

上面我们看到，点踩数都是0，没有分析意义，所以，用drop删除此列：

# 删除没用的列
df.drop('点踩数', axis=1, inplace=True)

删除之后，查看删除结果：

没有点踩数了。

五、可视化分析 5.1 相关性分析（Correlation）

数据中，有播放数、弹幕数、投币数、点赞数、分享数、收藏数等众多数据指标。

我想分析出，这些指标中，谁和综合得分的关系最大，决定性最高。

直接采用pandas自带的corr函数，得出相关性（spearman相关）矩阵：

可以看出，点赞数和综合得分的相关性最高，达到了0.66。

根据此分析结论，进一步画出点赞数和综合得分的分布散点图，验证此结论的正确性。

得出结论：随着点赞数增多，综合得分呈明显上升趋势，进一步得出，二者存在正相关的关系。

5.2 饼图（Pie）

综合得分划分分布区间，绘制出分布饼图。

首先，划分数据区间：

# 设置分段
bins = [1000000, 1500000,2000000, 2500000, 3000000, 10000000]
# 设置标签
labels = [
    '100w-150w',
    '150w-200w',
    '200w-250w',
    '250w-300w',
    '300w-1000w'
]
# 按分段离散化数据
segments = pd.cut(score_list, bins, labels=labels)  # 按分段切割数据
counts = pd.value_counts(segments, sort=False).values.tolist()  # 统计个数

至于区间怎么划分，可以按照对数据的大致理解，和最终可视化呈现的效果，微调划分区间。

绘制饼图：

得出结论：综合得分在100w至150w这个区间的视频最多，有36个视频（占比36%）