正文

水很深的深度学习-task01

GoAl的博客  GoAl的博客  2023-02-04  618

关键词：

1 人工智能与机器学习

人工智能分类：强人工智能、弱人工智能、超级人工智能
机器学习分类：有监督学习、无监督学习、强化学习

1.2 起源与发展

第1阶段：提出MP神经元模型、感知器、ADLINE神经网络，并指出感知器只能解决简单的线性分类任务，无法解决XOR简单分类问题
第2阶段：提出Hopfiled神经网络、误差反向传播算法、CNN
第3阶段：提出深度学习概念，在语音识别、图像识别的应用

1.3 深度学习定义与分类

定义：采用多层网络结构对未知数据进行分类或回归
分类：
1. 有监督学习：深度前馈网络、卷积神经网络、循环神经网络等
2. 无监督学习：深度信念网、深度玻尔兹曼机、深度自编码器等

1.4 主要应用

图像处理领域：图像分类、物体检测、图像分割、图像回归
语音识别领域：语音识别、声纹识别、语音合成
自然语音处理领域：语言模型、情感分析、神经机器翻译、神经自动摘要、机器阅读理解、自然语言推理
综合应用：图像描述、可视回答、图像生成、视频生成

2 数学基础

2.1 矩阵论

张量：标量是0阶张量，矢量是1阶张量，矩阵是2阶张量，三维及以上数组称为张量
矩阵的秩（Rank）：矩阵向量中的极大线性无关组的数目
矩阵的逆：
1. 奇异矩阵：rank(A_n×n)<nrank(An×n)<n
2. 非奇异矩阵：rank(A_n×n)=nrank(An×n)=n
广义逆矩阵：如果存在矩阵BB使得ABA=AABA=A，则称BB为AA的广义逆矩阵
矩阵分解：
1. 特征分解：A = U\\Sigma U^TA=UΣUT
2. 奇异值分解：A = U \\Sigma V^TA=UΣVT、U^T U = V^T V = IUTU=VTV=I

2.2 概率统计

随机变量：
1. 分类：离散随机变量、连续随机变量
2. 概念：用概率分布来指定它的每个状态的可能性
常见的概率分布：
1. 伯努利分布：单个二值型离散随机变量的分布，概率分布函数：P(X=1)=p,P(X=0)=1-pP(X=1)=p,P(X=0)=1−p
2. 二项分布：重复nn次伯努利试验，概率分布函数：P(X = k) = C_n^k p^k (1-p)^n-kP(X=k)=Cnkpk(1−p)n−k
3. 均匀分布：概率密度函数：\\displaystyle p(x) = \\frac1b-a, \\quad a < x <bp(x)=b−a1,a<x<b
4. 高斯分布：又称正态分布，概率密度函数：\\displaystyle p(x) = \\frac1\\sqrt2 \\pi\\sigmae^-\\frac(x-\\mu)^22 \\sigma^2p(x)=2πσ1e−2σ2(x−μ)2
5. 指数分布：独立随机事件发生的时间间隔，概率密度函数：p(x) = \\lambda e^-\\lambda x (x \\geqslant 0)p(x)=λe−λx(x⩾0)
多变量概率分布：
1. 条件概率：P(X | Y)P(X∣Y)
2. 联合概率：P(X, Y)P(X,Y)
3. 先验概率：在事件发生前已知的概率
4. 后验概率：基于新的信息，修正后来的先验概率，获得更接近实际情况的概率估计
5. 全概率公式：\\displaystyle P(B) = \\sum_i = 1^nP(A_i)P(B|A_i)P(B)=i=1∑nP(Ai)P(B∣Ai)
6. 贝叶斯公式：P(A_i | B) = \\frac P(B | A_i) P(A_i)P(B) = \\fracP(B | A_i) P(A_i) \\displaystyle \\sum_j=1^n P(A_j) P(B | A_j)P(Ai∣B)=P(B)P(B∣Ai)P(Ai)=j=1∑nP(Aj)P(B∣Aj)P(B∣Ai)P(Ai)
常用统计量：
1. 方差：随机变量与数学期望之间的偏离程度 \\textVar(X) = E\\left\\ [x-E(x)]^2 \\right \\ = E( x^2 ) -[E(x)]^2Var(X)=E[x−E(x)]2=E(x2)−[E(x)]2
2. 协方差：两个随机变量XX和YY的总体误差 \\textCov(X,Y)=E\\left\\ [x-E(x)][y-E(y)] \\right\\=E \\left( xy \\right) - E(x)E(y)Cov(X,Y)=E[x−E(x)][y−E(y)]=E(xy)−E(x)E(y)

2.3 信息论

熵：样本集纯度指标，或样本集报班的平均信息量
H(X) = - \\sum_i = 1^n P(x_i) \\log_2 P(x_i)H(X)=−i=1∑nP(xi)log2P(xi)
联合熵：度量二维随机变量XYXY的不确定性
H(X, Y) = -\\sum_i = 1^n \\sum_j = 1^n P(x_i, y_j) \\log_2 P(x_i, y_j)H(X,Y)=−i=1∑nj=1∑nP(xi,yj)log2P(xi,yj)
条件熵：
\\beginaligned H(Y|X) &= \\sum_i = 1^n P(x_i) H(Y|X = x_i) \\\\ &= -\\sum_i = 1^n P(x_i) \\sum_j = 1^n P(y_j | x_i) \\log_2 P(y_j | x_i) \\\\ &= -\\sum_i = 1^n \\sum_j = 1^n P(x_i, y_j) \\log_2 P(y_j | x_i) \\endalignedH(Y∣X)=i=1∑nP(xi)H(Y∣X=xi)=−i=1∑nP(xi)j=1∑nP(yj∣xi)log2P(yj∣xi)=−i=1∑nj=1∑nP(xi,yj)log2P(yj∣xi)
互信息：
I(X;Y) = H(X)+H(Y)-H(X,Y)I(X;Y)=H(X)+H(Y)−H(X,Y)
相对熵：又称KL散度，描述两个概率分布PP和QQ差异，用概率分布QQ拟合真实分布PP时，产生的信息表达损耗
1. 离散形式：\\displaystyle D(P||Q) = \\sum P(x)\\log \\fracP(x)Q(x)D(P∣∣Q)=∑P(x)logQ(x)P(x)
2. 连续形式：\\displaystyle D(P||Q) = \\int P(x)\\log \\fracP(x)Q(x)D(P∣∣Q)=∫P(x)logQ(x)P(x)
交叉熵：目标与预测值之间的差距
\\beginaligned D(P||Q) &= \\sum P(x)\\log \\fracP(x)Q(x) \\\\ &= \\sum P(x)\\log P(x) - \\sum P(x)\\log Q(x) \\\\ &= -H(P(x)) -\\sum P(x)\\log Q(x) \\endalignedD(P∣∣Q)=∑P(x)logQ(x)P(x)=∑P(x)logP(x)−∑P(x)logQ(x)=−H(P(x))−∑P(x)logQ(x)

2.4 最优化估计

最小二乘估计：采用最小化误差的平方和，用于回归问题

数学基础

线性代数

标量（scalar）：一个标量就是一个单独的数。
向量（vector）：一个向量是一列数。
矩阵（matrix）：矩阵是一个二维数组，其中的每一个元素被两个索引所确定。
张量（tensor）：一个数组中的元素分布在若干维坐标的规则网络中，称之为张量。
转置（transpose）：矩阵的转置是以主对角线为轴的镜像。
单位矩阵（identity matrix）：所有沿主对角线的元素都是1，所有其他位置的元素都是0.
对角矩阵（diagonal matrix）：只在主对角线上含有非零元素，其他位置都是0。
正交矩阵（orthogonal matrix）：行向量和列向量分别标准正交的方阵。
正定（positive definite）：矩阵所有特征值都是正数。
半正定（positive semidefinite）：矩阵所有特征值都是非负数。
负定（negative definite）：矩阵所有特征值都是负数。
半负定（negative semidefinite）：矩阵所有特征值都是非正数。
矩阵的秩（rank）：矩阵列向量中的极大线性无关组的数目，记作矩阵的列秩，同样可以定义行秩。行秩=列秩=矩阵的秩，通常记作rank(A)。

水很深的深度学习-task02机器学习基础

机器学习基础目录机器学习基础一、什么是机器学习？如何寻找这个函数？机器学习三板斧学习路线二、机器学习算法的类型1.有监督学习2.无监督学习3.强化学习4.机器学习算法的系统分类三、常见机器学习概念介绍࿱... 查看详情

水很深的深度学习-task04卷积神经网络cnn

...：1.水很深的深度学习-CNN2.卷积神经网络超详细介绍_呆呆的猫的博客-CSDN博客_卷积神经网络卷积神经网络的概念计算机视觉和CNN发展十一座里程碑上世纪60年代，Hubel等人通... 查看详情

水很深的深度学习-卷积神经网络篇(代码片段)

什么是卷积先将一个函数反转，然后滑动叠加最容易理解的对卷积(convolution)的解释_bitcarmanlee的博客-CSDN博客_卷积这篇文章可以深入理解下卷积卷积操作步长：卷积核移动的步长其他卷积转置卷积/反卷积空洞卷积空... 查看详情

whydeeplearning?

...深，参数也越多，拟合能力也越强（但实际情况是，网络很深的时候，不容易训练，使得表现能力可能并不好）。2.那么，不同什么深度的网络，在参数差不多大小的情况下，深的网络会比浅的网络表现能力好么？即深度较深的... 查看详情

学习源码第四天（昨天只看了一点正则，发现正则真的水很深，但很有魅力）(代码片段)

第三天主要对match的值做了一个判断 match[1]要么是标签字符串，要么macth就是null 像<li>、<li>11都转成‘li‘作为match[1]。match[1]现在‘<li><li>‘或‘<li>‘if(match&&(match[1]||!cont 查看详情

xa事务水很深，小伙子我怕你把握不住！(代码片段)

文章目录1.什么是XA规范1.1什么是两阶段提交1.2什么是XA规范2.MySQL中的XA2.1两阶段事务提交2.2事务直接提交2.3小结3.Seata中的XA3.1Seata中的XA模式3.2代码实践3.3代码简析4.XA的几个问题5.总结分布式事务系列继续！前面松哥和大家聊... 查看详情

听说「学生会」水很深，你准备「趟」么？

　　　　都说，大学是个小社会，只有经历过大学，才能学会「成长」。　　不少人感慨，真正进入大学之后，才发现，这是和想象中，截然不同的两个世界。大学绝非旁人口中的「象牙塔」，没有多得压死人的作业，可以无拘... 查看详情

xa事务水很深，小伙子我怕你把握不住！(代码片段)

场内的代码表,感觉水很深(代码片段)

场内的代码表,感觉水很深写了一个爬取代码表的小爬虫,很久以前的事了.现在想好好分析一下,代码的分类,又写了一个统计函数.分别统计7个不同字头的代码里,分别有多少只品种.先上菜:代码运行结果(cmd窗口里启动Ipython的场景):s... 查看详情

《深度学习》李宏毅--task7总结

总结：进一步学习机器学习基础，希望以后有机会多多实践，为以后进入这个领域做准备。学习内容：01-机器学习介绍介绍机器学习的概念，监督学习，无监督学习，迁移学习，强化学习等概念02-... 查看详情

可解释性机器学习task01-预备知识

...些可解释性分析方法可解释性与模型性能可解释算法分类深度学习的可解释性分析CNN的可解释性分析总结与扩展阅读思考题Reference什么是可解释人工智能?现代机器查看详情

☘️听哥一句劝，ubuntu水很深，你把握不住！让giegie来帮你☘️查看ubuntu版本信息与内核信息(代码片段)

版本信息：指令：lsb_release-a示例：root@ubuntu_64:~#lsb_release-aNoLSBmodulesareavailable.DistributorID: UbuntuDescription: Ubuntu12.04LTSRelease: 12.04Codename: precise解释：Distrib 查看详情

机器学习常用模块(代码片段)

...，二来为深度学习打基础。　　　部分太简单，或者映象很深的就不记录了，避免浪费时间。博客园的makedown真是无语了,排版好久,上传就是这个鬼模样还是csdn支持的好[TOC]1.python基础(1).字符串print("abc".upper())#转为大写查看详情

《深度学习》李宏毅--task4深度学习介绍和反向传播机制

深度学习的三个步骤Step1：神经网络（Neuralnetwork）Step2：模型评估（Goodnessoffunction）Step3：选择最优函数（Pickbestfunction）2.1神经网络（Neuralnetwork）神经网络&#x 查看详情

《深度学习》李宏毅--task5网络技巧设计

本文参考：https://blog.csdn.net/LucyLuo2020/article/details/118916216Datawhale深度学习资料：https://datawhalechina.github.io/leeml-noteshttps://blog.csdn.net/gwpjiayou/article/details/104308704一、梯度下查看详情

吴恩达深度学习笔记（deeplearning.ai）之循环神经网络（rnn）

...但是普通RNN不擅长捕获这种长期依赖关系。因为RNN相当于很深的权重共享的神经网络，因此在反向传播的过程中存在很严重的梯度消失现象，损失函数得到查看详情

《深度学习》李宏毅--task1机器学习介绍

机器学习介绍机器学习（MachineLearning），就是让机器自动找函数。如语音识别，就是让机器找一个函数，输入是声音信号，输出是对应的文字。如下棋，就是让机器找一个函数，输入是当前棋... 查看详情

nlp——天池新闻文本分类task4：fasttext深度学习(代码片段)

NLP——新闻文本分类：TASK3深度学习FasttextFasttext是一种深度学习词向量的表示方法，它是一种三层神经网络，包含输入层，隐含层和输出层。模型架构:fastText模型输入一个词的序列（一段文本或者一句话)，输出这个词序列属于... 查看详情