正文

机器学习聚类算法(代码片段)

赵广陆  赵广陆  2022-12-03  226

关键词：

1 认识聚类算法

使用不同的聚类准则，产生的聚类结果不同。

1.1 聚类算法在现实中的应用

用户画像，广告推荐，Data Segmentation，搜索引擎的流量推荐，恶意流量识别
基于位置信息的商业推送，新闻聚类，筛选排序
图像分割，降维，识别；离群点检测；信用卡异常消费；发掘相同功能的基因片段

1.2 聚类算法的概念

聚类算法：

一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。

在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。

1.3 聚类与分类最大的区别

聚类算法是无监督的学习算法，而分类算法属于监督的学习算法。

1.4 小结

聚类算法分类【了解】
- 粗聚类
- 细聚类
聚类的定义【了解】
- 一种典型的无监督学习算法，
- 主要用于将相似的样本自动归到一个类别中
- 计算样本和样本之间的相似性，一般使用欧式距离

2 聚类算法api初步使用

2.1 api介绍

sklearn.cluster.KMeans(n_clusters=8)
- 参数:
  - n_clusters:开始的聚类中心数量
    - 整型，缺省值=8，生成的聚类数，即产生的质心（centroids）数。
- 方法:
  - estimator.fit(x)
  - estimator.predict(x)
  - estimator.fit_predict(x)
    - 计算聚类中心并预测每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)

2.2 案例

随机创建不同二维数据集作为训练集，并结合k-means算法将其聚类，你可以尝试分别聚类不同数量的簇，并观察聚类效果：

聚类参数n_cluster传值不同，得到的聚类结果不同

2.2.1流程分析

2.2.2 代码实现

1.创建数据集

import matplotlib.pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import calinski_harabaz_score

# 创建数据集
# X为样本特征，Y为样本簇类别， 共1000个样本，每个样本2个特征，共4个簇，
# 簇中心在[-1,-1], [0,0],[1,1], [2,2]， 簇方差分别为[0.4, 0.2, 0.2, 0.2]
X, y = make_blobs(n_samples=1000, n_features=2, centers=[[-1, -1], [0, 0], [1, 1], [2, 2]],
                  cluster_std=[0.4, 0.2, 0.2, 0.2],
                  random_state=9)

# 数据集可视化
plt.scatter(X[:, 0], X[:, 1], marker='o')
plt.show()

2.使用k-means进行聚类,并使用CH方法评估

y_pred = KMeans(n_clusters=2, random_state=9).fit_predict(X)
# 分别尝试n_cluses=2\\3\\4,然后查看聚类效果
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

# 用Calinski-Harabasz Index评估的聚类分数
print(calinski_harabaz_score(X, y_pred))

2.3 小结

api：sklearn.cluster.KMeans(n_clusters=8)【知道】
- 参数:
  - n_clusters:开始的聚类中心数量
- 方法：
  - estimator.fit_predict(x)
    - 计算聚类中心并预测每个样本属于哪个类别,相当于先调用fit(x),然后再调用predict(x)

3 聚类算法实现流程

3.1 k-means聚类步骤

1、随机设置K个特征空间内的点作为初始的聚类中心
2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
4、如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程

通过下图解释实现流程：

k聚类动态效果图

3.2 案例练习

案例：

1、随机设置K个特征空间内的点作为初始的聚类中心（本案例中设置p1和p2）

2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别

3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）

4、如果计算得出的新中心点与原中心点一样（质心不再移动），那么结束，否则重新进行第二步过程【经过判断，需要重复上述步骤，开始新一轮迭代】

5、当每次迭代结果不变时，认为算法收敛，聚类完成，K-Means一定会停下，不可能陷入一直选质心的过程。

3.3 小结

K-means聚类实现流程

【掌握】
- 事先确定常数K，常数K意味着最终的聚类类别数;
- 随机选定初始点为质心，并通过计算每一个样本与质心之间的相似度(这里为欧式距离)，将样本点归到最相似的类中，
- 接着，重新计算每个类的质心(即为类中心)，重复这样的过程，直到质心不再改变，
- 最终就确定了每个样本所属的类别以及每个类的质心。
- 注意
  
  :
  - 由于每次都要计算所有的样本与每一个质心之间的相似度，故在大规模的数据集上，K-Means算法的收敛速度比较慢。

机器学习-聚类kmeans(代码片段)

图解K-Means算法本文中介绍的是一种常见的无监督学习算法，名字叫做K均值算法：K-Means算法。K-Means算法在无监督学习，尤其是聚类算法中是最为基础和重要的一个算法。它实现起来非常简单。聚类效果也很不错的ÿ... 查看详情

机器学习sklearn无监督学习聚类算法dbscan(代码片段)

importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportDBSCANfromsklearn.clusterimportKMeansfromsklearnimportdatasets#生成数据x1,y1=datasets.make_circles(n_samples=2000,factor=0.5 查看详情

机器学习sklearn无监督学习聚类算法dbscan(代码片段)

机器学习机器学习入门08-聚类与聚类算法k-means(代码片段)

时间过得很快，这篇文章已经是机器学习入门系列的最后一篇了。短短八周的时间里，虽然对机器学习并没有太多应用和熟悉的机会，但对于机器学习一些基本概念已经差不多有了一个提纲挈领的了解，如分类和回归，损失函数... 查看详情

机器学习算法优化(代码片段)

目录1Canopy算法配合初始聚类1.1实现流程1.2Canopy算法优缺点2K-means++3二分k-means4k-medoids（k-中心聚类算法）5Kernelk-means6ISODATA7MiniBatchK-Means8小结1Canopy算法配合初始聚类k-means算法小结优点：1.原理简单（靠近中心... 查看详情

机器学习算法优化(代码片段)

机器学习11-分类与监督学习，朴素贝叶斯分类算法(代码片段)

1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。简述什么是监督学习与无监督学习。分类与聚类的区别：是否有已知分类的条件。分类没有，聚类有。监督学习：已知某些类别的情况下，即具有事先... 查看详情

机器学习：python实现聚类算法之总结(代码片段)

考虑到学习知识的顺序及效率问题，所以后续的几种聚类方法不再详细讲解原理，也不再写python实现的源代码，只介绍下算法的基本思路，使大家对每种算法有个直观的印象，从而可以更好的理解函数中参数... 查看详情

☀️机器学习入门☀️图解k-means聚类算法|附加小练习(代码片段)

物以类聚经典的无监督学习算法——K-Means聚类算法目录1.K-Means定义2.K-Means步骤3.K-Means和KNN对比4.小练习4.1第一题4.2第二题4.3第三题最后1.K-Means定义K-means聚类算法首先是随机选取K个对象作为初始的聚类中心，然后计算每个样... 查看详情

机器学习笔记之kmeans算法(代码片段)

Kmeans算法：优点：容易实现缺点：可能收敛到局部最小值，在大规模数据集上的收敛速度较慢。适用数据类型：数值型数据算法原理：k-means算法接受参数k；然后将事先输入的n个数据对象划分为k个聚类... 查看详情

机器学习入门knn分类算法|附加小练习(代码片段)

目录1.聚类与分类1.1聚类1.2分类2.关于KNN算法2.1`Lp距离`定义：2.1`K`值的选取3.练习第一题：第二题：最后1.聚类与分类1.1聚类聚类是将数据对象的集合分成相似的对象类的过程。使得同一个簇（或类࿰... 查看详情

机器学习sklearn无监督学习聚类算法k-means(代码片段)

importmatplotlib.pyplotaspltfromsklearn.datasets.samples_generatorimportmake_blobsfromsklearn.clusterimportKMeans#生成测试数据#X为样本特征，Y为样本簇类别，共1000个样本，每个样本2个特征，对应x和y轴，共4个簇查看详情

机器学习sklean无监督学习聚类算法k-means(代码片段)

[机器学习]二分k-means算法详解(代码片段)

二分k-means算法二分k-means算法是分层聚类（Hierarchicalclustering）的一种，分层聚类是聚类分析中常用的方法。分层聚类的策略一般有两种：聚合。这是一种自底向上的方法，每一个观察者初始化本身为一类，然后两两结合分裂... 查看详情

机器学习：聚类算法api初步使用(代码片段)

学习目标知道聚类算法API的使用1api介绍sklearn.cluster.KMeans(n_clusters=8)参数:n_clusters:开始的聚类中心数量整型，缺省值=8，生成的聚类数，即产生的质心（centroids）数。方法:estimator.fit(x)estimator.predict(x)estimato... 查看详情

机器学习算法原理详细推导与实现:k-means算法(代码片段)

【机器学习】算法原理详细推导与实现(六):k-means算法之前几个章节都是介绍有监督学习，这个章节介绍无监督学习，这是一个被称为k-means的聚类算法，也叫做k均值聚类算法。聚类算法在讲监督学习的时候，通常会画这样一张图... 查看详情

应用在机器学习中的聚类数据集产生方法(代码片段)

简介：本文根据机器学习中常用的聚类数据集生成方法中的内容进行编辑实验和整理而得。并在之后对于聚类数据库生成进行不断的补充。关键词：机器学习，聚类算法，数据集合 §01直接生成这类方法是利... 查看详情

机器学习聚类算法（实战）(代码片段)

聚类算法（实战）目录一、不同聚类算法的执行效果和所用时间二、准备工作（设置jupyternotebook中的字体大小样式等）三、Kmeans算法1、构建样本数据2、基于样本数据构建分类器3、绘制决策边界4、演示k-means算法... 查看详情