机器学习实战ch02:k-近邻算法

author author     2022-08-22     675

关键词:

k-近邻算法算是一个非常暴力也非常好理解的算法

(抽象来讲,就是和谁长得像就分为哪一类

如何划分长得像还是不像的尺度? 把特征值当做坐标,把个体当做线性空间中的离散点,取k个离目标最近的训练集点,进行label vote,少数服从多数。

That‘s it.

至于什么是label vote...完全是自己yy的名词,就是取出现次数最多的label而已啦

当训练集的数据足够多,k取得足够大的时候,其实是不用担心次数出现相同的情况的

另外要注意对数据量度的“标准化”处理,此处对应下文autoNorm部分

 

好的下面来讲一讲实现的问题

createDataSet()

#用于创建样例训练集

#返回dataSet, labels

 

file2matrix(filename)

#用于将txt中的文件前几列读入returnMat,最后一列读入returnLabelVector

#注意这里的returnMat实际上是array,并没有必要用到matrix

#返回returnMat, returnLabelVector

 

img2vertor(filename)

#和file2matrix差不多

#返回returnVec(label在文件名里,另外处理)

 

classify0(inX, dataSet, labels, k)

#分类器,计算出inX与dataSet中所有欧几里得距离并排序

#返回normMat, ranges, minVals

‘‘‘

这里计算与各点距离利用到array可以直接相减等性质,并不需要另外迭代(循环)

vote的结果用dict记录

并且注意一下dict的排序写法

‘‘‘

 

autoNorm(dataSet)

#标准化器,标准化公式 newVal = (Val - minVal)/(maxVal-minVal)

#同样用到了array整体操作的技巧,以及tile函数

#返回normDataSet, ranges, minVals

 

handwritingClassTest()

#数字分类测试器,利用img2vector将trainingDigits中的图像压缩成向量,并逐个整理进数据集,再用classify0分类器对testDigits中的经处理后的向量逐个进行分类,并统计分类正确率

 

datingClassTest()

#一个和handwritingClassTest原理差不多的东西,只是按比例把一个数据集划分(注意这里的划分和之后提到的“划分”完全两回事)成两个部分,分别作为训练集和待判断数据,相当于一个自我测试

 

plotmatlib这玩意儿太诡异了,迟点再补充,本书作者好像默认读者对plotmatlib库函数很熟悉啊?

机器学习实战k-近邻算法

...tp://www.cnblogs.com/lighten/p/7593656.html 1.原理  本章介绍机器学习实战的第一个算法——k近邻算法(k NearestNeighbor),也称为kNN。说到机器学习,一般都认为是很复杂,很高深的内容,但实际上其学习门栏并不算高,具备基... 查看详情

机器学习实战☛k-近邻算法(k-nearestneighbor,knn)(代码片段)

机器学习实战☛k-近邻算法(K-NearestNeighbor,KNN)文章目录机器学习实战☛k-近邻算法(K-NearestNeighbor,KNN)k-近邻算法概述原理简介k-近邻算法一般流程伪代码与实现示例:使用kNN改进约会网站的配对效... 查看详情

《机器学习实战》学习笔记——k近邻算法

1.numpy中一些函数的用法学习shape()用法:shape :tupleofintsTheelementsoftheshapetuplegivethelengthsofthecorrespondingarraydimensions.。  shape返回一个元组,依次为各维度的长度。shape[0]:第一维长度,shape[1]:第二维长度。  tile()用法:numpy.tile 查看详情

机器学习实战笔记--k近邻算法

1#encoding:utf-82fromnumpyimport*3importoperator4importmatplotlib5importmatplotlib.pyplotasplt67fromosimportlistdir89defmakePhoto(returnMat,classLabelVector):#创建散点图10fig=plt.figure()11ax=fig.add_subpl 查看详情

《机器学习实战》读书笔记2:k-近邻(knn)算法

声明:文章是读书笔记,所以必然有大部分内容出自《机器学习实战》。外加个人的理解,另外修改了部分代码,并添加了注释1、什么是K-近邻算法?简单地说,k-近邻算法采用测量不同特征值之间距离的方法进行分类。不恰当... 查看详情

机器学习实战精读--------k-近邻算法

对机器学习实战的课本和代码进行精读,帮助自己进步。#coding:utf-8from numpy import *import operator #运算符模块from os import listdir  #os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字... 查看详情

机器学习实战之第二章k-近邻算法

第2章k-近邻算法KNN概述k-近邻(kNN,k-NearestNeighbor)算法主要是用来进行分类的.KNN场景电影可以按照题材分类,那么如何区分 动作片 和 爱情片 呢?动作片:打斗次数更多爱情片:亲吻次数更多基于电影中的亲吻、... 查看详情

机器学习实战之k近邻算法

k近邻算法概述简单地说,K近邻算法采用测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。它的工作原理是:存在一... 查看详情

机器学习实战k-近邻算法实施knn分类算法

2.预测数据分类时,出现‘dict’objecthasnoattribute‘iteritems‘如: 最常见的解决办法是更改环境变量顺序如 注意:哪个版本在上面,cmd中的python版本即是谁。如又如:  然后预测数据所在分类即可实现:  查看详情

《机器学习实战》之k-近邻算法

看了这本书的第一个算法—k-近邻算法,这个算法总体构造思想是比较简单的,在ACM当中的话就对应了kd树这种结构。首先需要给定训练集,然后给出测试数据,求出训练集中与测试数据最相近的k个数据,根据这k个数据的属... 查看详情

机器学习实战task1(knn)k近邻算法的应用(代码片段)

...算法的简介k-近邻算法是属于一个非常有效且易于掌握的机器学习算法,简单的说就是采用测量不同特征值之间距离的方法对数据进行分类的一个算法。(2)k近邻算法的工作原理给定一个样本的集合,这里称为训... 查看详情

《机器学习实战》——k近邻算法

原理:(1)输入点A,输入已知分类的数据集data(2)求A与数据集中每个点的距离,归一化,并排序,选择距离最近的前K个点(3)K个点进行投票,票数最多的分类即为所求优点:简单,可用于非线性分类缺点:当样本不均衡时影响投票... 查看详情

机器学习实战第2章k-近邻算法(k-nearestneighbor,knn)

第2章k-近邻算法<scripttype="text/javascript"src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>KNN概述k-近邻(kNN,k-NearestNeighbor)算法主要是用来进行分类的.KNN场景电影可以按照题材分类,那么如何区分&nbs 查看详情

机器学习实战笔记-k近邻算法2(改进约会网站的配对效果)

案例二.:使用K-近邻算法改进约会网站的配对效果案例分析:海伦收集的数据集有三类特征,分别是每年获得的飞行常客里程数、玩视频游戏所耗时间百分比、每周消费的冰淇淋公升数。我们需要将新数据的每个新数据的每个特... 查看详情

机器学习实战---k-近邻(代码片段)

一:简单实现K-近邻算法(一)导入数据importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspddefCreateDataSet():data=np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=np.array([‘A‘,‘A‘,‘B‘,‘B‘])returndata,labelsda 查看详情

机器学习实战-第二章-k-近邻算法

时间:2021.11.02下午14:22开始记将文件转换为矩阵格式的代码:#deffile2Matrix(filename):#    fr=open(filename)#    arrayOLines=fr.readlines()#    numberOLines=len(arrayOLines)#    returnMat=zeros((numberOLines,3))#    classLabel... 查看详情

《机器学习实战》之k-近邻算法(手写识别系统)

这个玩意和改进约会网站的那个差不多,它是提前把所有数字转换成了32*32像素大小的黑白图,然后转换成字符图(用0,1表示),将所有1024个像素点用一维矩阵保存下来,这样就可以通过knn计算欧几里得距离来得到最接近的答案... 查看详情

机器学习——k-近邻(k-nearestneighbor)

...arestneighbor(个人观点,仅供参考。)k-近邻算法,第一个机器学习算法,非常有效且易掌握,本文将主要探讨k-近邻算法的基本理论和使用距离侧量的算法分类物品;最后通过k-近邻算法改进约会网站和手写数字识别系统。文章... 查看详情