正文

☀️机器学习入门☀️pca和lda降维算法|附加小练习（文末送书）(代码片段)

小生凡一  小生凡一  2023-01-04  239

关键词：

🎉粉丝福利送书：《人工智能数学基础》
🎉点赞 👍 收藏 ⭐留言 📝 即可参与抽奖送书
🎉下周三(9月22日)晚上20：00将会在【点赞区和评论区】抽一位粉丝送这本书~🙉
🎉详情请看第三点的介绍嗷~✨

1. PCA 主成分分析

1.1 算法简介

数据样本虽然是高维的，但是与学习任务紧密相关的或许仅仅是一个低维嵌入，因此可以对数据进行有效的降维。

主成分分析是一种统计分析、简化数据集的方法。

它利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分。

1.2 实现思路

一般来说，欲获得低维子空间，最简单的是对原始高维空间进行线性变换。

给定𝒎维空间中的数据点，将其投影到低维空间中，同时尽可能多地保留信息。

数据在低维线性空间的正交投影

最大化投影数据的方差(紫色线)。最小化数据点与投影之间的均方距离(蓝色线之和)。

主成分概念：
1. 主成分分析(PCA)的思想是将𝒎维特征映射到𝒌维上(𝒌<𝒎)，这𝒌维是全新的正交特征。
2. 这𝒌维特征称为主成分(PC)，是重新构造出来的𝒌维特征。
主成分特点：
1. 源于质心的矢量。
2. 主成分#1指向最大方差的方向。
3. 各后续主成分与前一主成分正交，且指向残差子空间最大方差的方向

1.3 公式推算

1.3.1 PCA顺序排序

给定中心化的数据𝒙_𝟏,𝒙_𝟐,⋯,𝒙_𝒎，计算主向量:

我们最大化𝒙的投影方差

我们使残差子空间中投影的方差最大

1.3.2 样本协方差矩阵

给定数据𝒙_𝟏,𝒙_𝟐,⋯,𝒙_𝒎, 计算协方差矩阵

证明不写了，太多公式了，自行百度吧。

1.4 小练习

给定的图像数据集，探讨pca降维后特征个数与聚类性能的关系。

from PIL import Image
import numpy as np
import os
from ex1.clustering_performance import clusteringMetrics
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False

def getImage(path):
    images = []
    for root, dirs, files in os.walk(path):
        if len(dirs) == 0:
            images.append([root + "\\\\" + x for x in files])
    return images

# 加载图片
images_files = getImage('face_images')
y = []
all_imgs = []
for i in range(len(images_files)):
    y.append(i)
    imgs = []
    for j in range(len(images_files[i])):
        img = np.array(Image.open(images_files[i][j]).convert("L"))  # 灰度
        # img = np.array(Image.open(images_files[i][j])) #RGB
        imgs.append(img)
    all_imgs.append(imgs)

# 可视化图片
w, h = 180, 200
pic_all = np.zeros((h * 10, w * 10))  # gray
for i in range(10):
    for j in range(10):
        pic_all[i * h:(i + 1) * h, j * w:(j + 1) * w] = all_imgs[i][j]
pic_all = np.uint8(pic_all)
pic_all = Image.fromarray(pic_all)
pic_all.show()

# 构造输入X
label = []
X = []
for i in range(len(all_imgs)):
    for j in all_imgs[i]:
        label.append(i)
        # temp = j.reshape(h * w, 3) #RGB
        temp = j.reshape(h * w)  # GRAY
        X.append(temp)

def keams_in(X_Data, k):
    kMeans1 = KMeans(k)
    y_p = kMeans1.fit_predict(X_Data)
    ACC, NMI, ARI = clusteringMetrics(label, y_p)
    t = "ACC:,NMI::.4f,ARI::.4f".format(ACC, NMI, ARI)
    print(t)
    return ACC, NMI, ARI

# PCA
def pca(X_Data, n_component, height, weight):
    X_Data = np.array(X_Data)
    pca1 = PCA(n_component)
    pca1.fit(X_Data)
    faces = pca1.components_
    faces = faces.reshape(n_component, height, weight)
    X_t = pca1.transform(X_Data)
    return faces, X_t

def draw(n_component, faces):
    plt.figure(figsize=(10, 4))
    plt.subplots_adjust(hspace=0, wspace=0)
    for i in range(n_component):
        plt.subplot(2, 5, i + 1)
        plt.imshow(faces[i], cmap='gray')
        plt.title(i + 1)
        plt.xticks(())
        plt.yticks(())
    plt.show()

score = []
for i in range(10):
    _, X_trans = pca(X, i + 1, h, w)
    acc, nmi, ari = keams_in(X_trans, 10)
    score.append([acc, nmi, ari])

score = np.array(score)
bar_width = 0.25
x = np.arange(1, 11)
plt.bar(x, score[:, 0], bar_width, align="center", color="orange", label="ACC", alpha=0.5)
plt.bar(x + bar_width, score[:, 1], bar_width, color="blue", align="center", label="NMI", alpha=0.5)
plt.bar(x + bar_width*2, score[:, 2], bar_width, color="red", align="center", label="ARI", alpha=0.5)
plt.xlabel("n_component")
plt.ylabel("精度")
plt.legend()
plt.show()

2. LDA 线性判断分析

2.1 算法简介

当我们映射的时候，由于映射的位置不同，所以我们会有不同的降维后的结果。对于下面两个，我们可以看出方法2的分类更明显，方法2是更好的。

和PCA的映射对比。

2.2 实现思路

投影后类内方差最小，类间方差最大

就像是上面的那个三维映射例子一样，我们可以看到，方法2之所以更好，就是因为类内方差最小，类间方差最大。

数据映射到Rk(从d维降到k维),且希望该变换将属于同一类的样本映射得越近越好(即最小的类内距离)，而将不同类的样本映射得越远越好 (即最大的类间距离)。同时还能尽能多地保留样本数据的判别信息。

记𝒁_𝒊=𝑻(𝒙)|𝒙∊𝑿_𝒊，从而根据线性判别分析的基本思想，我们希望：

(𝒛_𝟏 ) ̅和(𝒛_2 ) ̅离的越远越好

类间离散度

𝒁_𝒊 中的元素集中在(𝒛_𝒊 ) ̅附近越好

类内离散度

输入：训练样本〖𝒙_𝒊,𝒚_𝒊〗_(𝒊=𝟏)^𝒏，降维后的维数（特征个数）k.

输出：𝑿=[𝒙_𝟏, …,𝒙_𝒏 ]的低维度表示𝒁=[𝐳_𝟏, …,𝐳_𝒏 ].

步骤
1.计算类内散度矩阵 Sw；
2.计算类间散度矩阵 Sb;
3.计算矩阵S的负一次方wSb;
4.计算S的负一次方wSb的最大的k个特征值和对应的k个特征向量(w1, w2, …, wk)，得到投影矩阵W
5.对样本集中的每一个样本特征xi转化为新的样本zi=WTxi
6.得到输出样本集〖𝒛_𝒊,𝒚_𝒊〗_(𝒊=𝟏)^𝒏.

2.3 小练习

给定的图像数据集，探讨LDA的降维效果

from sklearn import datasets#引入数据集
from sklearn.neighbors import KNeighborsClassifier #KNN
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
import numpy as np
import matplotlib.pyplot as plt #plt用于显示图片
from matplotlib import offsetbox

def calLDA(k):
    # LDA
    lda = LinearDiscriminantAnalysis(n_components=k).fit(data,label) # n_components设置降维到n维度
    dataLDA = lda.transform(data)  # 将规则应用于训练集
    return dataLDA

def calPCA(k):
    # PCA
    pca = PCA(n_components=k).fit(data)
    # 返回测试集和训练集降维后的数据集
    dataPCA = pca.transform(data)
    return dataPCA

def draw():
    # matplotlib画图中中文显示会有问题，需要这两行设置默认字体

    fig = plt.figure('example', figsize=(11, 6))
    # plt.xlabel('X')
    # plt.ylabel('Y')
    # plt.xlim(xmax=9, xmin=-9)
    # plt.ylim(ymax=9, ymin=-9)
    color = ["red","yellow","blue","green","black","purple","pink","brown","gray","Orange"]
    colors = []
    for target in label:
        colors.append(color[target])
    plt.subplot(121)
    plt.title("LDA 降维可视化")
    plt.scatter(dataLDA.T[0], dataLDA.T[1], s=10,c=colors)
    plt.subplot(122)
    plt.title("PCA 降维可视化")
    plt.scatter(dataPCA.T[0], dataPCA.T[1], s=10, c=colors)

    #plt.legend()
    plt.show()

def plot_embedding(X,title=None):
    x_min, x_max = np.min(X, 0), np.max(X, 0)
    X = (X - x_min) / (x_max - x_min)  # 对每一个维度进行0-1归一化，注意此时X只有两个维度
    colors = ['#5dbe80', '#2d9ed8', '#a290c4', '#efab40', '#eb4e4f', '#929591','#ababab','#eeeeee','#aaaaaa','#213832']

    ax = plt.subplot()

    # 画出样本点
    for i in range(X.shape[0]):  # 每一行代表一个样本
        plt.text(X[i, 0], X[i, 1], str(label[i]),
                 # color=plt.cm.Set1(y[i] / 10.),
                 color=colors[label[i]],
                 fontdict='weight': 'bold', 'size': 9)  # 在样本点所在位置画出样本点的数字标签

    # 在样本点上画出缩略图，并保证缩略图够稀疏不至于相互覆盖
    if hasattr(offsetbox, 'AnnotationBbox'):
        shown_images = np.array([[1., 1.]])  # 假设最开始出现的缩略图在(1,1)位置上
        for i in range(data.shape[0]):
            dist = np.sum((X[i] - shown_images) ** 2, 1)  # 算出样本点与所有展示过的图片（shown_images）的距离
            if np.min(dist) < 4e-3:  # 若最小的距离小于4e-3，即存在有两个样本点靠的很近的情况，则通过continue跳过展示该数字图片缩略图
                continue
            shown_images = np.r_[shown_images, [X[i]]]  # 展示缩略图的样本点通过纵向拼接加入到shown_images矩阵中

            imagebox = offsetbox.AnnotationBbox(
                offsetbox.OffsetImage(datasets.load_digits().images[i], cmap=plt.cm.gray_r),
                X[i])
            ax.add_artist(imagebox)

    #plt.xticks([]), plt.yticks([])  # 不显示横纵坐标刻度
    if title is not None:
        plt.title(title)

    plt.show()

data = datasets.load_digits().data#一个数64维，1797个数
label = datasets.load_digits().target
dataLDA = calLDA(2)
dataPCA = calPCA(2)

#draw() #普通图


plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

plot_embedding(dataLDA,"LDA 降维可视化")
plot_embedding(dataPCA,"PCA 降维可视化")

3. 福利送书

点赞、评论即可在参与评论区的抽奖活动，抽一位小伙伴送书~

零基础也能快速入门。本书从最基础的高等数学基础讲起，由浅入深，层层递进，在巩固固有知识的同时深入讲解人工智能的算法原理，无论读者是否从事计算机相关行业，是否接触过人工智能，都能通过本书实现快速入门。
全新视角介绍数学知识。采用计算机程序模拟数学推论的介绍方法，使数学知识更为清晰易懂，更容易让初学者深入理解数学定理、公式的意义，从而激发起读者的学习兴趣。
理论和实践相结合。每章最后提供根据所在章的理论知识点精心设计的“综合性实例”，读者可以通过综合案例进行实践操作，为以后的算法学习奠定基础。
大量范例源码+习题答案，为学习排忧解难。本书所有示例都有清晰完整的源码，每章之后设有习题并配套题目答案，讲解清晰，解决读者在学习中的所有困惑。
以后也会又很多这种送书福利哒~，当然啦！如果没有抽到的小伙伴也可以自行前往京东或者当当购买嗷

【作者简介】

唐宇迪，计算机专业博士，网易云课堂人工智能认证行家，51CTO学院讲师，CSDN博客专家。
李琳，河南工业大学副教授，在软件工程、机器学习、人工智能和模式识别等领域有深入研究。
侯惠芳，教授，解放军信息工程大学通信与信息系统专业博士，擅长机器学习、大数据检索、人工智能和模式识别等。
王社伟，河南工业大学副教授，西北工业大学航空宇航制造专业博士，挪威科技大学访问学者，对数字化制造、企业管理系统、机器学习、数据挖掘等有丰富的实战经验。

最后

小生凡一，期待你的关注。

机器学习——降维（主成分分析pca线性判别分析lda奇异值分解svd局部线性嵌入lle）

机器学习——降维（主成分分析PCA、线性判别分析LDA、奇异值分解SVD、局部线性嵌入LLE）以下资料并非本人原创，因为觉得石头写的好，所以才转发备忘(主成分分析（PCA）原理总结)[https://mp.weixin.qq.com/s/XuXK4inb9Yi-4ELCe_i0EA]来源：?... 查看详情

lda和pca降维的原理和区别

...程中可以使用类别的先验知识经验，而像PCA这样的无监督学习则无法使用类别先验知识。LDA在样本分类信息依赖均值而不是方差的时候，比PCA之类的算法较优。LDA算法的主要缺点有：LDA不适合对非高斯分布样本进行降维，PCA也有... 查看详情

面试题：lda和pca区别

更多请关注"机器学习算法面试"相同点（1）两者的作用是用来降维的（2）两者都假设符合高斯分布不同点（1）LDA是有监督的降维方法，PCA是无监督的。（2）LDA降维最多降到类别数K-1的维... 查看详情

机器学习面试问答：pca算法介绍？pca算法过程？pca为什么要中心化处理？pca为什么要做正交变化？pca与线性判别分析lda降维的区别？

面试问答：PCA算法介绍？PCA算法过程？PCA为什么要中心化处理？PCA为什么要做正交变化？（1）简单介绍一下PCA主成分分析(Principalcomponetanalysis,PCA)是一种无监督学习方法，利用正交变换把线性相关变... 查看详情

降维算法二：lda（lineardiscriminantanalysis）

...法，就需要获取数据的先验、后验概率等等。LDA是在目前机器学习、数据挖掘领域经典且热门的一个算法，据我所知，百度的商务搜索部里面就用了不少这方面的算法。LDA的原理是，将带上标签的数据（点），通过投影的方法，... 查看详情

降维线性判别分析lda

降维，线性判别分析本博客根据百面机器学习，算法工程师带你去面试一书总结归纳，公式都是出自该书.本博客仅为个人总结学习，非商业用途，侵删.网址http://www.ptpress.com.cn目录LDA推导LDA扩展到多维度PCA与LDA的区别LDA原理线性... 查看详情

pca和lda

参考技术A在机器学习领域，PCA和LDA都可以看成是数据降维的一种方式。但是PCA是无监督的，也就是说不需要知道sample对应的label，而LDA是监督的，需要知道每一个数据点对应的label。下面分别解释PCA和LDA的基本原理相同点：不同... 查看详情

机器学习实战基础（二十六）：sklearn中的降维算法pca和svd附录

查看详情

以❤️简单易懂❤️的语言带你搞懂有监督学习算法附python代码详解机器学习系列之knn篇(代码片段)

必须要看的前言本文风格：以❤️简单易懂❤️的语言带你彻底搞懂KNN，了解什么是有监督学习算法。认真看完这篇文章，彻底了解KNN、了解监督学习算法绝对是一样很简单的事情。注：本篇文章非常详细，... 查看详情

机器学习实战基础（二十七）：sklearn中的降维算法pca和svdpca对手写数字数据集的降维(代码片段)

PCA对手写数字数据集的降维1.导入需要的模块和库fromsklearn.decompositionimportPCAfromsklearn.ensembleimportRandomForestClassifierasRFCfromsklearn.model_selectionimportcross_val_scoreimportmatplotlib.pyplotaspltimportpandas 查看详情

机器学习--pca降维和lasso算法

1、PCA降维降维有什么作用呢？数据在低维下更容易处理、更容易使用；相关特征，特别是重要特征更能在数据中明确的显示出来；如果只有两维或者三维的话，更便于可视化展示；去除数据噪声降低算法开销常见的降维算法有... 查看详情

机器学习算法笔记6.降维与主分量分析（pca）

【机器学习算法笔记】6.降维与主分量分析（PCA）6.1PCA算法特征选择问题是指将数据空间变换到特征空间，我们希望设计一种变换使得数据集由维数较少的有效特征来表示。PCA是最常用的线性降维方法，它的目标... 查看详情

机器学习实战之pca

一，引言　　降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内... 查看详情

lda

...应用，因此我们有必要了解下它的算法原理。　　　　在学习LDA之前，有必要将其自然语言处理领域的LDA区别开来，在自然语言处理领域，LDA是隐含狄利克雷分布（LatentDirichletAllocation，简称LDA），他是一种处理文档的主题模型... 查看详情

机器学习入门-线性判别分析（lda）

用途：分类预处理中的降维，做分类任务目的：LDA关心的是能够最大化类间区分度的坐标轴将特征空间（数据中的多维样本，将投影到一个维度更小的K维空间，保持区别类型的信息）监督性：LDA是“有监督”的，它计算的... 查看详情

机器学习实战基础（二十三）：sklearn中的降维算法pca和svdpca与svd之pca中的svd(代码片段)

PCA中的SVD1PCA中的SVD哪里来？细心的小伙伴可能注意到了，svd_solver是奇异值分解器的意思，为什么PCA算法下面会有有关奇异值分解的参数？不是两种算法么？我们之前曾经提到过，PCA和SVD涉及了大量的矩阵计算，两者都是运... 查看详情

机器学习sklearn无监督学习降维算法pca(代码片段)

importmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_blobsfromsklearn.decompositionimportPCA#X为样本特征，Y为样本簇类别，共1000个样本，每个样本3个特征，共4个簇查看详情