数据分析师通常都需要借助编程工具整理数量大而复杂的数据,在这些数据中挖掘有用的资料。简而言之,数据分析师就是从凌乱的数据中整理出规则的人,而这样的工作要求数据分析师掌握这些技巧:
- 业界知识 - 数据分析的基础就是为行业服务,足够的业界知识能让数据分析师了解究竟哪些数据才能为行业提供更深入的洞察
- 编程技巧 - 数据分析师需要清楚应该使用哪些库来简化和处理数据,进而从中找到所需的资料
- 数据分析 - 除了本身的数据分析能力,数据分析师也需要懂得借助工具来提取数据中的价值
- 可视化技能 - 只是提取数据是不够的,数据分析师需要把这些数据整理好后进行可视化,总结并呈现给他人
这篇文章将使用Python在线运行一系列经典的数据分析案例,让你对数据分析工具与编程有一定的了解,通过这些数据进行可视化并呈现我们所整理的数据。
文章中所使用的数据和范例代码已整理到项目文件中,大家只要打开就可以开始使用Python在线运行并查看数据:https://e2f35f8cd0-share.lightly.teamcode.com
分析数据
首先,我们需要使用Python中的Pandas库来读取 .csv 文件的数据。如果你的项目文件中还未安装pandas,可以参考安装教程通过 pip install pandas 或Quick Fix一键安装。
读取数据
安装好Pandas库后,我们还需要在编辑区使用Python代码 import pandas 导入,然后再通过下面的代码读取数据文件。
import pandas as pdfrom tabulate import tabulate
df = pd.read_csv('diabetes.csv'
大家可以使用以下代码,在编辑器中使用 Python 在线运行并查看数据效果:
print(tabulate(df, headers = 'keys', tablefmt = 'psql'))作为数据分析师,大家应该要知道数值(Numerical)和分类(Categorical)数据之间的区别。
数值数据顾名思义,指的是具有数值意义的数据。这种数据具有实际测量的物理意义,比如血糖、血压、年龄等。
分类数据则描述对象的性质,比性别、婚姻状况、家乡等。我们这次使用的数据中,其实只有“结果”属于分类数据。在表示分类数据时,我们同样能使用数字来进行描述,但这些数据并没有数学意义,你不能拿他来做运算。
数据可视化
在这个教程中,我们会展示一系列使用Python在线运行的数据可视化效果,大家可以根据自己的数据类型选择合适的图表来呈现。
饼图
使用Python在线运行代码:SimplePie.py
散点图
使用Python在线运行代码:scatterplot.py
折线图
使用Python在线运行代码:linechart.py
柱状图
使用Python在线运行代码:multibar.py
当我们完成数据分析和可视化图表后,我们可以根据数据和图标内容,简要说明数据故事。例如:购买奔驰的人明显比宝马更多、中老年人患糖尿病的比例更高、一月份的冰箱购买量远比其他月份高等,从而根据其他数据和实际情况继续分析。
数据分析师也是人,我们在分析数据的时候有时也会带有一些陷入为主的观念。然而,数据的意义就是为了破除这些迷思。分析数据的过程中,我们需要保持开放的态度,不要让偏见影响我们的数据结果。