大数据学习笔记-knn算法

swust_wjy swust_wjy     2022-12-02     651

关键词:

1.背景:分类(Classification是数据挖掘领域中的一种重要的技术,它是从一组已知的训练样本中发现分类模型,并且使用这个分类模型来预测待分类样本。建立一个有效的分类算法模型最终将待分类的样本进行处理是非常有必要的。目前常用的分类算法主要有:朴素贝叶斯分类算法(NaïveBayes)、支持向量机分类算法(SupportVector Machines)、 KNN最近邻算法(k-NearestNeighbors)、神经网络算法(NNet)以及决策树(DecisionTree)等等。

2.介绍:KNN算法中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法不同的是,K-Means算法是用来做聚类的,用来判断哪些东西是一个比较相近的类型,而KNN算法是用来做归类的,也就是说,有一个样本空间里的样本分成几个类型,然后给定一个待分类的数据,通过计算接近自己的K个样本类型来判断这个待分类数据属于哪个分类。

3.KNN思想:根据距离函数计算待分类样本X和每个训练样本的距离(作为相似度),选择与待分类样本距离最小的K个样本作为X的K个最邻近,最后以X的K个最邻近中的大多数所属的类别作为X的类别。KNN可以说是一种最直接的用来分类未知数据的方法。
简单来说,KNN可以看成:有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟训练数据里的每个点求距离,然后挑出离这个数据最近的K个点,看看这K个点属于什么类型,然后用少数服从多数的原则,给新
数据归类。

从上图中我们可以看到,图中的有两个类型的样本数据,一类是蓝色的正方形,另一类是红色的三角形。而那个绿色的圆形是我们待分类的数据。
如果K=3,那么离绿色点最近的有2个红色三角形和1个蓝色的正方形,这3个点投票,于是绿色的这个待分类点属于红色的三角形。
如果K=5,那么离绿色点最近的有2个红色三角形和3个蓝色的正方形,这5个点投票,于是绿色的这个待分类点属于蓝色的正方形。


算法学习笔记:knn理论介绍

...分类方法的一种。所谓监督学习与非监督学习,是指训练数据是否有标注类别,若有则为监督学习,若否则为非监督学习。所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个... 查看详情

大数据经典算法解析(8)一knn算法

...分类方法的一种。所谓监督学习与非监督学习,是指训练数据是  否有标注类别,若有则为监督学习,若否则为非监督学习。监督学习是根据输入数据(训练数据)  学习一个模型,能对后来的输入做预测。在监督... 查看详情

《机器学习实战》读书笔记2:k-近邻(knn)算法

...黑。它有如下特点:优点:精度高、对异常值不敏感、无数据输入假定缺点:计算复杂度高、空间复杂度高适用数据范围:数值型和标称型2、K-近邻算法的工作原理:存在一个 查看详情

r语言学习笔记—k近邻算法(代码片段)

K近邻算法(KNN)是指一个样本如果在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。即每个样本都可以用它最接近的k个邻居来代表。KNN算法适合分类,也适... 查看详情

r语言学习-knn临近算法

概念  1、监督学习:从给定标注的训练数据中学习出一个函数,根据这个函数为新数据进行标注。  2、无监督学习:从给定无标注的训练数据中学习出一个函数,根据这个函数为所有数据标注。 KNN分类算法:通过对已... 查看详情

机器学习总结笔记

...什么是无监督学习监督学习指的就是我们给学习算法一个数据集(训练集)。这个数据集由“正确答案”组成训练集有输入有输出是有监督学习,包括所有的回归算法分类算法,比如线性回归、决策树、神经网络、KNN、SVM等;无监督... 查看详情

机器学习算法(knn)(代码片段)

KNN简介KNN(k-NearestNeighbor)算法的思想总结一下:就是在数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个... 查看详情

机器学习算法之knn(k最近算法)

...    KNN算法存在一个训练样本集合,里面有n个训练数据,每个训练数据有m个特征。每个训练数据都标明了相对应的分类。比如:其中一条数据有四个特征:体重,翼展等,也有相对应的种属。  则KNN算法就是将一条未知... 查看详情

机器学习knn算法实现手写板字迹识别(代码片段)

...写板字迹识别1.前言2.实验背景3.测试过程3.1手写板及测试数据的制作3.2加载训练数据并进行KNN模型搭建3.3结果预测4.总结【机器学习】KNN算法实现手写板字迹识别1.前言​上篇博客通过KNN算法实现鸢尾花数据集分类,在博客最... 查看详情

使用knn算法对鸢尾花种类预测(代码片段)

使用KNN算法对鸢尾花种类预测一.数据集介绍1.1小数据集获取load_*1.2大数据集获取fetch_*1.3查看数据分布seaborn画图的二.数据集的划分三.特征工程3.1归一化处理MinMaxScaler3.2标准化StandardScaler四.流程实现4.1导包4.2获取数据集4.3数据基... 查看详情

通过knn算法,确定球星的风格(很水)

KNN算法,故名思议,K个最邻近值的分类算法。监督学习中的一种,典型的懒人算法,通过计算所有的预测样本到学习样本的距离,选取其中K个最小值加入样本组中,样本组中的样本隶属于那个分类的个数最多,那么我们就预测... 查看详情

机器学习十大算法之knn(k最近邻,k-nearestneighbor)算法

...法,是一种分类算法。算法的基本思想:假设已存在一个数据集,数据集有多个数值属性和一个标签属性,输入一个新数据,求新数据的标签。步骤如下:先将新数据拷贝n份,形成一个新的数据集;逐行计算新数据集与原数 查看详情

数据挖掘之knn算法(c#实现)

在十大经典数据挖掘算法中,KNN算法算得上是最为简单的一种。该算法是一种惰性学习法(lazylearner),与决策树、朴素贝叶斯这些急切学习法(eagerlearner)有所区别。惰性学习法仅仅只是简单地存储训练元组,做一些少量工作... 查看详情

机器学习01-knn邻近算法

...距离方法进行分类长处:精度高、对于异常值不敏感。无数据输入假定缺点:计算复杂度高,空间复杂度高,而且它没有办法各处基础数据的一些内部信息数据。算法描写叙述:存在一个准确的数据集合样本。称作训练样本集,... 查看详情

k近邻算法学习笔记(代码片段)

1、使用模拟数据演示k近邻算法importnumpyasnpimportmatplotlib.pyplotaspltfrommathimportsqrtfromcollectionsimportCounter#knn算法思想:如果样本在特征空间的k个最相邻的样本中大部分属于某一类,那么该样本也属于这一类#raw_data_x原始特征集... 查看详情

机器学习实战个人笔记

程序主体:以kNN算法为基础增加了文件数据导入函数增加了可视化操作增加了算法错误率判定1#-*-coding:utf-8-*-2fromnumpyimport*3importoperator4importmath5importmatplotlib6importmatplotlib.pyplotasplt7importnumpyasnp8importrandom9importcollections1 查看详情

数据挖掘算法-knn算法

✅作者简介:热爱科研的算法开发者,Python、Matlab项目可交流、沟通、学习。 查看详情

数据挖掘算法-knn算法

✅作者简介:热爱科研的算法开发者,Python、Matlab项目可交流、沟通、学习。 查看详情