机器学习k-近邻算法(代码片段)

赵广陆 赵广陆     2022-11-29     669

关键词:

目录


1 K-近邻算法简介

  • 目标
    • 说明K-近邻算法的距离公式
    • 说明K-近邻算法的超参数K值以及取值问题
    • 说明K-近邻算法的优缺点
    • 应用KNeighborsClassifier实现分类
    • 了解分类算法的评估标准准确率
  • 应用
    • Facebook签到位置预测

  • 你的“邻居”来推断出你的类别

2 K-近邻算法(KNN)

2.1 定义

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

来源:KNN算法最早是由Cover和Hart提出的一种分类算法

2.2 距离公式

两个样本的距离可以通过如下公式计算,又叫欧式距离

3 电影类型分析

假设我们有现在几部电影

其中? 号电影不知道类别,如何去预测?我们可以利用K近邻算法的思想

3.1 问题

  • 如果取的最近的电影数量不一样?会是什么结果?

3.2 K-近邻算法数据的特征工程处理

  • 结合前面的约会对象数据,分析K-近邻算法需要做什么样的处理

4 K-近邻算法API

  • sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
    • n_neighbors:int,可选(默认= 5),k_neighbors查询默认使用的邻居数
    • algorithm:‘auto’,‘ball_tree’,‘kd_tree’,‘brute’,可选用于计算最近邻居的算法:‘ball_tree’将会使用 BallTree,‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)

5 案例:预测签到位置

数据介绍:将根据用户的位置,准确性和时间戳预测用户正在查看的业务。

train.csv,test.csv 
row_id:登记事件的ID
xy:坐标
准确性:定位准确性 
时间:时间戳
place_id:业务的ID,这是您预测的目标

官网:https://www.kaggle.com/navoshta/grid-knn/data

5.1 分析

  • 对于数据做一些基本处理(这里所做的一些处理不一定达到很好的效果,我们只是简单尝试,有些特征我们可以根据一些特征选择的方式去做处理)

    • 1、缩小数据集范围 DataFrame.query()

    • 4、删除没用的日期数据 DataFrame.drop(可以选择保留)

    • 5、将签到位置少于n个用户的删除

      place_count = data.groupby(‘place_id’).count()

      tf = place_count[place_count.row_id > 3].reset_index()

      data = data[data[‘place_id’].isin(tf.place_id)]

  • 分割数据集

  • 标准化处理

  • k-近邻预测

5.2 代码

def knncls():
    """
    K近邻算法预测入住位置类别
    :return:
    """
    # 一、处理数据以及特征工程
    # 1、读取收,缩小数据的范围
    data = pd.read_csv("./data/FBlocation/train.csv")

    # 数据逻辑筛选操作 df.query()
    data = data.query("x > 1.0 & x < 1.25 & y > 2.5 & y < 2.75")

    # 删除time这一列特征
    data = data.drop(['time'], axis=1)

    print(data)

    # 删除入住次数少于三次位置
    place_count = data.groupby('place_id').count()

    tf = place_count[place_count.row_id > 3].reset_index()

    data = data[data['place_id'].isin(tf.place_id)]

    # 3、取出特征值和目标值
    y = data['place_id']
    # y = data[['place_id']]

    x = data.drop(['place_id', 'row_id'], axis=1)

    # 4、数据分割与特征工程?

    # (1)、数据分割
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

    # (2)、标准化
    std = StandardScaler()

    # 队训练集进行标准化操作
    x_train = std.fit_transform(x_train)
    print(x_train)

    # 进行测试集的标准化操作
    x_test = std.fit_transform(x_test)

    # 二、算法的输入训练预测
    # K值:算法传入参数不定的值    理论上:k = 根号(样本数)
    # K值:后面会使用参数调优方法,去轮流试出最好的参数[1,3,5,10,20,100,200]
    knn = KNeighborsClassifier(n_neighbors=1)

    # 调用fit()
    knn.fit(x_train, y_train)

    # 预测测试数据集,得出准确率
    y_predict = knn.predict(x_test)

    print("预测测试集类别:", y_predict)

    print("准确率为:", knn.score(x_test, y_test))

    return None

5.3 结果分析

准确率: 分类算法的评估之一

  • 1、k值取多大?有什么影响?

k值取很小:容易受到异常点的影响

k值取很大:受到样本均衡的问题

  • 2、性能问题?

距离计算上面,时间复杂度高

6 K-近邻总结

  • 优点:
    • 简单,易于理解,易于实现,无需训练
  • 缺点:
    • 懒惰算法,对测试样本分类时的计算量大,内存开销大
    • 必须指定K值,K值选择不当则分类精度不能保证
  • 使用场景:小数据场景,几千~几万样本,具体场景具体业务去测试

《机器学习实战》-k近邻算法(代码片段)

目录K-近邻算法k-近邻算法概述解析和导入数据使用Python导入数据实施kNN分类算法测试分类器使用k-近邻算法改进约会网站的配对效果收集数据准备数据:使用Python解析文本文件分析数据:使用Matplotlib画二维散点图准备数据:归... 查看详情

机器学习-k-近邻算法(代码片段)

...邻算法(k-nearestneighborsalgorithm),又称为KNN算法,是这学期机器学习课教的第一个算法,也是我接触的第一个机器学习算法。学习之后的感触便是:机器学习和我想象的有点不一样KNN是真滴简单(? ̄△ ̄)?算法介绍KNN属于有监督的分... 查看详情

机器学习分类算法--k近邻算法knn(代码片段)

...应用数学知识少(近乎为零)效果好(缺点?)可以解释机器学习算法使用过程中很多细节问题更完整的刻画机器学习应用的流程 importnumpyasnpimportmatplotlib.pyplotasplt实现我们自己的kNN创建简单测试用例raw_data_X=[[3.39353 查看详情

机器学习实战☛k-近邻算法(k-nearestneighbor,knn)(代码片段)

机器学习实战☛k-近邻算法(K-NearestNeighbor,KNN)文章目录机器学习实战☛k-近邻算法(K-NearestNeighbor,KNN)k-近邻算法概述原理简介k-近邻算法一般流程伪代码与实现示例:使用kNN改进约会网站的配对效... 查看详情

机器学习k近邻算法(代码片段)

k临近算法(解决分类问题):  已知数据集,以及该数据对应类型  给出一个数据x,在已知数据集中选择最接近x的k条数据,根据这k条数据的类型判断x的类型具体实现:fromnumpyimport*importoperatordefcreateDataSet():group=array([[1.0,1.... 查看详情

机器学习机器学习分类算法--k近邻算法knn(下)(代码片段)

六、网格搜索与K邻近算法中更多的超参数七、数据归一化FeatureScaling解决方案:将所有的数据映射到同一尺度      八、scikit-learn中的Scalerpreprocessing.pyimportnumpyasnpclassStandardScaler:def__init__(self):self.mean_=None 查看详情

机器学习k近邻算法鸢尾花种类预测(代码片段)

目录1再识K-近邻算法API2案例:鸢尾花种类预测2.1数据集介绍2.2步骤分析2.3代码过程3案例小结4KNN算法总结4.1k近邻算法优缺点汇总1再识K-近邻算法APIsklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)n_neighbors:i... 查看详情

机器学习sklearn的k近邻算法api初步使用(代码片段)

...算法介绍:https://blog.csdn.net/ZGL_cyy/article/details/125583129机器学习流程复习:1.获取数据集2.数据基本处 查看详情

machinelearninginaction机器学习——第二章k-近邻算法代码详解(代码片段)

一、近邻算法的定义与作用也就是意义k-近邻算法,近邻算法近邻算法顾名思义,找到最近的点然后进行归纳,距离哪些点最近这个点就属于那个类。这和线性回归算法有异曲同工之妙,但是我感觉还是一元线性... 查看详情

机器学习实战task1(knn)k近邻算法的应用(代码片段)

...算法的简介k-近邻算法是属于一个非常有效且易于掌握的机器学习算法,简单的说就是采用测量不同特征值之间距离的方法对数据进行分类的一个算法。(2)k近邻算法的工作原理给定一个样本的集合,这里称为训... 查看详情

机器学习100天(三十):030k近邻分类算法-k值的选择(代码片段)

机器学习100天,今天讲的是:K近邻分类算法-K值的选择。《机器学习100天》完整目录:目录上一节我们讲了K折交叉验证的理论,下面我们将K折交叉验证算法应用到K近邻分类算法中,用来选择最合适的超参数K值。数据集iris_data.c... 查看详情

机器学习100天(三十):030k近邻分类算法-k值的选择(代码片段)

机器学习100天,今天讲的是:K近邻分类算法-K值的选择。《机器学习100天》完整目录:目录上一节我们讲了K折交叉验证的理论,下面我们将K折交叉验证算法应用到K近邻分类算法中,用来选择最合适的超参数K值。数据集iris_data.c... 查看详情

k近邻算法简单介绍——机器学习(代码片段)

K近邻算法一.简介二.KNN算法API使用2.1导入Scikit-learn工具2.2k-近邻算法API案例悄悄介绍自己:作者:神的孩子在跳舞本人是快升大四的小白,在山西上学,学习的是python方面的知识,希望能找到一个适合自己的实... 查看详情

机器学习实战---k-近邻(代码片段)

一:简单实现K-近邻算法(一)导入数据importnumpyasnpimportmatplotlib.pyplotaspltimportpandasaspddefCreateDataSet():data=np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels=np.array([‘A‘,‘A‘,‘B‘,‘B‘])returndata,labelsda 查看详情

机器学习--实验三(代码片段)

博客班级AHPU机器学习作业要求K-近邻算法及应用作业目标理解K-近邻算法原理,能实现算法K近邻算法学号3180701118目录实验目的】【实验内容】实验报告要求】高斯朴素贝叶斯算法基本思想:python程序:scikit-learn实例朴素贝叶斯算... 查看详情

基本机器学习算法思想以及编程实现(代码片段)

概要把常用的机器学习算法:\(k\)-近邻算法、决策树、朴素贝叶斯、\(K\)-均值聚类其思想有及python代码实现总结一下。做到既要知其然又要知其所以然。参考《机器学习实战》。??\(k\)-近邻算法?基本原理?\(k\)-近邻算法是分类数... 查看详情

机器学习-5.k-近邻算法(knn)(代码片段)

1.定义定义:所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居),这K个实例的多数属于某个类,就把该输入... 查看详情

机器学习:k-近邻分类

...展示出来。    K-近邻算法属于分类的一种,由之前机器学习简介中所介绍的,分类是需要一些样本数据来供算法进行学习,因此K-近邻分类算法也需要一些训练数据集。  首先我说一下K-近邻算法的思路:从字面上上看,... 查看详情