统计机器学习（三）KNN

来源：互联网收集：自由互联发布时间：2022-07-19

教程笔记概述来源于课程MA429,讲述统计机器学习。是算法工程师的基础。本文阅读先决条件阅读并尽可能理解intro naive bayes.pdf这个课件。内容总结这个贝叶斯决策边界是实际的类别

教程笔记概述

来源于课程MA429,讲述统计机器学习。是算法工程师的基础。

阅读并尽可能理解intro naive bayes.pdf这个课件。

这个贝叶斯决策边界是实际的类别分类边界。还有我们设计的分类器的分类边界。
k在10个左右时，偏差和方差比较小，mse综合较小。k过大时，mse也会增大。

在高维出现的数据样本稀疏、距离计算困难，是所有机器学习面临的共同问题。

本节推导：
2维时，2类时，knn工作还行。维度变大时，假设各个变量独立，符合均匀分布，那么距离就是各个均匀分布的平方和，就是正态分布，大部分数据落在3内，又因为样本少，大部分点距离值几乎一样。
所以需要降维。