作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊
目录
第1章 Scikit-learn的中文学习网站
第2章 Scikit-learn待学习的对象
2.1 四大问题以及算法分类
2.2 算法模型选择:对于特定的现实问题,选择合适的模型
2.3 数据的预处理
第3章 Scikit-learn的学习方法
3.1 学习步骤
3.2 学习材料
3.3 学习方法
第4章 Scikit-learn的安装
4.1 前置条件
4.2 conda安装
4.3 pip3安装
第1章 Scikit-learn的中文学习网站
(1)中文网站
scikit-learn中文社区Scikit-learn(以前称为scikits.learn,也称为sklearn)是针对Python 编程语言的免费软件机器学习库。它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN。Scikit-learn 中文文档由CDA数据科学研究院翻译,扫码关注获取更多信息。https://scikit-learn.org.cn/
(2)英文网站
scikit-learn: machine learning in Python — scikit-learn 1.0.2 documentationhttps://scikit-learn.org/stable/
第2章 Scikit-learn待学习的对象
2.1 四大问题以及算法分类
- 分类问题相关算法:把输入数据集,按照指定的类型进行分类。
- 聚类问题相关算法:把输入数据集,让机器自动发现数据的类型,并进行分类。
- 回归问题相关算法:用一个特定的曲线拟合数据集中的数据特征。
- 降维问题相关算法:降低输入数据集的维度,使得复杂问题简化。
2.2 算法模型选择:对于特定的现实问题,选择合适的模型
- 模型初选:针对特定的数据集和要解决的问题,从Scikit-learn支持的众多的模型中初步选择一个模型。
- 模型训练:用输入数据对模型进行训练
- 模型评估:对训练后的模型进行评估
- 模型优化:对训练后的模型进行超参数优化
- 模型终选:比较各种模型和优化结果,选择最终的模型
2.3 数据的预处理
在把数据送入到模型中进行训练前,需要对数据进行预处理
- 数据的获取:通过Scikit-learn提供的工具,从外部读取数据到内存,并按照期望的方式组织数据
- 数据预处理:对于读取的数据进行预处理,如过滤无效数据、对强化、变形等等
- 特征的提取:从数据中提取特征数据,这些特征数据作为模型的输入(而不是原始的数据)】
- 特征的选择:在众多提取的特征中,根据需要选择一定的特征数据,用于最终模型的训练。
第3章 Scikit-learn的学习方法
上面是学习Scikit-learn涉及到的三大方面,然而学习是一个过程,按照模型训练的过程来分,把Scikit-learn的学习分为如下的几个步骤
3.1 学习步骤
文字前面的数字,表明了数据处理的通用过程,也表明的学习的顺序。
3.2 学习材料
- 视频教学
- 官方网站
- 网络博客
- 示例代码
3.3 学习方法
- 应用场合分析
- 算法原理讲解
- 函数库接口使用
- 模型训练
- 项目实践
备注:
本系列主要学习Scikit-learn python库中每种算法模型的基本原理和使用方法,其中使用方法是重点,对于模型具体的代码实现,并不并本系列的重点。
第4章 Scikit-learn的安装
Scikit-learn是用python编写的库,因此,在学习Scikit-learn之前,需要先安装Scikit-learn,
4.1 前置条件
- Python
- Anaconda
- Jupter Notebook
4.2 conda安装
$ conda install scikit-learn
# 检查
$ conda list scikit-learn # 查看scikit-learn安装的位置及安装的版本
$ conda list # 查看所有在虚拟环境中已下载的包
$ python -c "import sklearn; sklearn.show_versions()"
4.3 pip3安装
$ pip install -U scikit-learn
# 检查
$ python -m pip show scikit-learn # 查看scikit-learn安装的位置及安装的版本
$ python -m pip freeze # 查看所有在虚拟环境中已下载的包
$ python -c "import sklearn; sklearn.show_versions()"
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊